机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

有关各种优化算法的详细算法流程和公式可以参考【这篇blog】，讲解比较清晰，这里说一下自己对他们之间关系的理解。

BGD 与 SGD

首先，最简单的 BGD 以整个训练集的梯度和作为更新方向，缺点是速度慢，一个 epoch 只能更新一次模型参数。

SGD 就是用来解决这个问题的，以每个样本的梯度作为更新方向，更新次数更频繁。但有两个缺点：

更新方向不稳定、波动很大。因为单个样本有很大的随机性，单样本的梯度不能指示参数优化的大方向。
所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，而有些参数则需要频繁学习改进。

Mini-batch SGD 和 Momentum 算法做出的改进主要是用来解决第一个问题。

Mini-batch SGD 算法使用一小批样本的梯度和作为更新方向，有效地稳定了更新方向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度小幅影响优化方向，而不是完全决定优化方向。也起到了减小波动的效果。

AdaGrad 算法做出的改进用来解决第二个问题，其记录了每个参数的历史梯度平方和（平方是 element-wise 的），并以此表征每个参数变化的剧烈程度，继而自适应地为变化剧烈的参数选择更小的学习率。

但 AdaGrad 有一个缺点，即随着时间的累积每个参数的历史梯度平方和都会变得巨大，使得所有参数的学习率都急剧缩小。

RMSProp 算法解决了这个问题，其采用了一种递推递减的形式来记录历史梯度平方和，可以观察其表达式：早期的历史梯度平方和会逐渐失去影响力，系数逐渐衰减。

简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的一种算法，其既记录了历史梯度均值作为动量，又考虑了历史梯度平方和实现各个参数的学习率自适应调整，解决了 SGD 的上述两个问题。

《机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）.doc》

下载本文的Word格式文档，以方便收藏与打印。