使用 Plain C++ 中的 Adam 进行梯度下降 - SegmentFault 思否

使用 Plain C++ 中的 Adam 进行梯度下降

发布于 7 月 27 日

主要观点：

介绍了用于游戏开发者的纯 C++机器学习文章及视频版本，此篇文章是对其的后续，讲解 Adam 优化算法。
Adam 是改进梯度下降的流行且简单的方法，用于机器学习训练神经网络，有 4 个参数，通常只需调整 alpha。
Adam 通过保持导数的指数移动平均和导数平方的移动平均来调整学习率，以应对梯度下降中的挑战，如局部最小值和步长调整。
给出了使用 Adam 调整导数的代码结构，还提到 Adam 不能给出最优步长值需手动调整学习率等特点。
通过比较 Adam 和普通梯度下降在二维地形中的测试结果，发现两者差异不大，但 Adam 在高维度中更具优势。

关键信息：

函数优化问题及梯度下降方法，小步长虽精确但计算浪费，大步长可能错过最小值。
Adam 的 4 个参数及作用：alpha（学习率）、Beta1（导数指数移动平均率）、Beta2（导数平方指数移动平均率）、Epsilon（防止除零）。
Adam 代码中 m 和 v 分别是导数和导数平方的移动平均，通过特定计算得到调整后的导数。
Adam 存在起始时 m 和 v 偏向零的偏差校正问题。
测试结果显示 Adam 和普通梯度下降在二维情况下差异不明显，但 Adam 在高维度更灵活。

重要细节：

代码中 m 的计算类似从 m 到导数的 lerp 操作，t 值为 0.1，v 类似但 t 值为 0.001。
Adam 调整学习率时不会给出具体最优值，还可结合随时间减小学习率的方法，但需再调整超参数。
提供了相关论文、资源链接，如介绍 Adam 的论文、各种梯度下降相关概述及教程等。

Gradient Descent With Adam in Plain C++

https://blog.demofox.org/2024/02/11/gradient-descent-with-adam-in-plain-c/

阅读 28

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。