1.Adam算法(自适应矩阵估计)

比梯度下降更快的训练神经网络,算法自动的选择合适的学习率,模型并不是使用同一个学习率α,模型的每个参数都会用不同的学习率,如下图所示:有11个不同的学习率
图片.png
Adam算法的工作图例:
(1).如果一个参数wj或b,在大致相同的方向上移动,这是我们在前一张幻灯片上看到的第一个例子,但如果它继续沿着大致相同的方向运动,让我们提高这个参数的学习率,我们往那个方向快一点。
(2).相反,如果一个参数来来回振荡,那我们就不要让它一直来回摆动,让我们把学习率αj的值变的小一点
图片.png
(3).代码实现
图片.png
注意观察上面的代码,比原来的代码多了
图片.png
这一行的意思是采用Adam算法优化,并且设置了一个默认的学习率10的-3次方


RUSH
1 声望1 粉丝