1.Adam算法(自适应矩阵估计)
比梯度下降更快的训练神经网络,算法自动的选择合适的学习率,模型并不是使用同一个学习率α,模型的每个参数都会用不同的学习率,如下图所示:有11个不同的学习率
Adam算法的工作图例:
(1).如果一个参数wj或b,在大致相同的方向上移动,这是我们在前一张幻灯片上看到的第一个例子,但如果它继续沿着大致相同的方向运动,让我们提高这个参数的学习率,我们往那个方向快一点。
(2).相反,如果一个参数来来回振荡,那我们就不要让它一直来回摆动,让我们把学习率αj的值变的小一点
(3).代码实现
注意观察上面的代码,比原来的代码多了
这一行的意思是采用Adam算法优化,并且设置了一个默认的学习率10的-3次方
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。