【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。
本文为原创文章，未经本人允许，禁止转载。转载请注明出处。

1.Momentum梯度下降法

Momentum梯度下降法的运行速度几乎总是快于标准的梯度下降法。

Momentum梯度下降法的基本思路就是计算梯度的指数加权平均数，并利用该梯度更新你的权重。

接下来我们来详细介绍下Momentum梯度下降法的计算过程。

假设cost function的图像见下：

其中红点代表最小值的位置。

标准的梯度下降法的过程见下：

这种上下波动减慢了梯度下降法的速度，使我们无法使用更大的学习率。

而对于Momentum梯度下降法，我们使用指数加权平均综合前几次迭代的梯度：

$v_{dW}$和$v_{db}$依旧是被初始化为0。

Momentum梯度下降法的过程如下图红线所示：

梯度的方向更为直接的指向了最小值，减少了上下摆动。

Momentum梯度下降法涉及两个超参数：学习率$\alpha$和参数$\beta$。其中，$\beta$最常用的值是0.9，即平均了前十次迭代的梯度。

此外，在使用Momentum梯度下降时，基本不进行偏差修正。因为通常迭代次数都大于10次（以$\beta=0.9$为例），指数加权平均已经过了初始阶段，因此不再需要偏差修正。

在部分资料中，有把指数加权平均公式中的$(1-\beta)$省去的写法，但此时$\beta$通常还是取0.9。

【深度学习基础】第十七课：Momentum梯度下降法