最佳答案

简而言之，它是几何级数的总和。

用动量更新意味着“速度”和“位置”更新如下：

v =μ* v +α*梯度

θ=θ-v

现在，假设最初v = 0且梯度保持（几乎）恒定（为方便起见，假设为1），则速度演变为：

0，
α，
（1 +μ）*α，
（1 +μ（1 +μ））*α=（1 +μ+μ^ 2）*α，
（1 +μ+μ^ 2 +μ^ 3）*α，
（1 +μ+μ^ 2 +μ^ 3 +μ^ 4）*α，
（1 +μ+μ^ 2 +μ^ 3 +μ^ 4 +μ^ 5）*α，
...
1 /（1-μ）*α

（使用无限几何级数之和的公式）

编辑：要回答您问题的第二部分，（添加到下面的@Prune的答案中）1 /（1-μ）*α或多或少地表现为“有效学习率”。因此，如果在更改μ之前，某个特定的α值工作良好，则应通过减小α来进行补偿，以保持“有效学习率”恒定。这与在没有动量的梯度下降中选择正确的学习率一样重要。

动量

neural-network - caffe求解器文档。如何理解动量μ具有因子$ 1/(1-μ)$的影响？