神经网络的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程称为最优化。解决这个问题使用的算法叫做优化器。
1、 BGD、SGD、MSGD
BGD:最原始梯度下降算法,计算需使用整个数据集的损失(慢)
SGD:每次选取一个batch数据,每个数据点的loss都会对模型进行更新(震荡,易受噪声影响)
MSGD:计算一批样本的平均来更新,一般为这种。
分别针对学习率和各个参数设置更新策略。
神经网络的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程称为最优化。解决这个问题使用的算法叫做优化器。
BGD:最原始梯度下降算法,计算需使用整个数据集的损失(慢)
SGD:每次选取一个batch数据,每个数据点的loss都会对模型进行更新(震荡,易受噪声影响)
MSGD:计算一批样本的平均来更新,一般为这种。
分别针对学习率和各个参数设置更新策略。
北极网友阿伟阅读 1.3k
VincentLee赞 1阅读 396
deephub赞 1阅读 259
deephub赞 1阅读 248
超神经HyperAI阅读 729
超神经HyperAI阅读 712
VincentLee阅读 707
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。