【深度学习】深度学习常用优化方法

LogM

阅读 2 分钟

0

作者：LogM

本文原载于 https://segmentfault.com/u/logm/articles ，不允许转载~

文章中的数学公式若无法正确显示，请参见：正确显示数学公式的小技巧

1. SGD（随机梯度下降）

$$ g_t = \bigtriangledown_{\theta_{t-1}} f(\theta_{t-1}) $$

$$ \Delta\theta_t = -\eta*g_t $$

需要手动选取合适的learning_rate
稀疏特征更新问题（不常出现的特征更新慢，如word2vec的embedding矩阵）
易被困局部最优

2. momentum

$$ m_t = \mu*m_{t-1}+g_t $$

$$ \Delta\theta_t = -\eta*m_t $$

引入惯量缓解局部最优问题
未解决稀疏特征更新问题

3. AdaGrad

$$\nu_t = \nu_{t-1} + g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \eta$$

解决稀疏特征更新问题，不常出现的特征更新快
局部最优问题没有解决
随着 $\nu_t$ 的累加，学习率不断衰减

4. RMSprop

$$\nu_t = \mu * \nu_{t-1} + (1-\mu) * g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \eta$$

解决稀疏特征更新问题，不常出现的特征更新快
局部最优问题没有解决

RMSprop 是 AdaGrad 的升级版，区别是 $\nu_t$ 的计算方式：RMSprop 是移动平均，而 AdaGrad 是累加，越加越大。

5. Adadelta

$$\nu_t = \mu * \nu_{t-1} + (1-\mu) * g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \sqrt{\Delta \hat\theta_{t-1}^2}$$

$$\hat\theta_{t}^2 = \mu * \hat\theta_{t-1}^2 + (1-\mu) * \Delta\theta_t * \Delta\theta_t$$

解决稀疏特征更新问题，不常出现的特征更新快
无需手动设置学习率
局部最优问题没有解决
AdaDelta 相比 RMSprop，使用了 $\sqrt{\Delta \hat\theta_{t-1}^2}$ 来替换 $\eta$。

4. Adam

$$ m_t = \beta_{1}m_{t-1} + (1-\beta_1)g_t $$

$$ \nu_t = \beta_{2}\nu_{t-1} + (1-\beta_2)g_t^2 $$

$$ \Delta\theta_t = \frac{\hat m_t}{\sqrt{\hat\nu_t+\epsilon}} * \eta $$

$$ \hat m_t = \frac{m_t}{1-\beta_1^t},\space\space \hat\nu_t = \frac{\nu_t}{1-\beta_2^t} $$

$m_t$：移动平均求一阶矩的期望$E(g_t)$
$\nu_t$：移动平均求二阶矩的期望$E(g_t^2)$
$\hat m_t$、$\hat\nu_t$：考虑迭代刚开始的初始时刻做的修正
解决稀疏特征更新问题
缓解局部最优问题

Adam 可以看做是将 momentum 和 RMSprop 的思想融合了起来。

深度学习优化

阅读 2.3k发布于 2019-07-06

LogM

85 声望18 粉丝

« 上一篇

【机器学习】交叉熵的推导

下一篇 »

【机器学习】Rank 中使用的指标及示例代码

引用和评论

推荐阅读

【Linux】screen 常用命令

LogM阅读 10.4k

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

超神经HyperAI阅读 1.9k

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

超神经HyperAI阅读 1.8k

【vLLM 学习】基础教程

超神经HyperAI阅读 1.8k

【Triton 教程】triton.heuristics

超神经HyperAI阅读 1.7k

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

deephub阅读 1.7k

【TVM 教程】使用 TVMC Micro 执行微模型

超神经HyperAI阅读 1.6k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。