无需链式法则的最简单反向传播解释器

发布于 8 月 4 日

主要观点：神经网络通过反向传播学习预测，本文通过简单示例帮助建立对该概念的直觉，所学习的思想可用于更大的神经网络。先复习微积分以理解反向传播中的求导，如对于方程(y = x^3)，求导后可计算(x)微小变化时(y)的变化。接着以简单的一到一网络和带隐藏层的网络为例，介绍如何计算预测值、成本函数、导数以及如何通过导数调整权重，避免权重调整过急导致的爆炸梯度问题，通过乘以学习率使权重逐渐趋于最优值以提高预测效果，且有意避免使用链式法则以更好地理解核心思想。
关键信息：

微积分中求导用于反向传播，如(y = x^3)的导数为(\frac{dy}{dx} = 3x^2)。
简单一到一网络中，输入(x = 2)，权重(w = 4)，目标输出(y = 10)，预测公式(\hat{y} = x \times w)，成本函数(\text{Cost} = \hat{y} - y)。
带隐藏层的网络中，输入(x = 2)，权重(w_1 = 4)，(w_2 = 3)，目标输出(y_{target} = 10)，预测公式(\hat{y} = (x \cdot w_1) \cdot w_2)，成本函数(\text{Cost} = \hat{y} - y_{target})。
调整权重时，导数大的权重调整多，导数小的权重调整少，通过乘以学习率避免爆炸梯度问题。
重要细节：
对于(y = x^3)，(x = 2)增加(0.01)时，(dy = 3(2)^2 \times 0.01 = 0.12)，实际(y)变为(8.120601)，接近估计值。
增加(w_1)和(w_2)分别为(0.1)时，可观察到(\hat{y})的变化，且(w_2)对输出影响更大。
计算机通过乘以学习率调整权重，避免权重突然变化导致成本波动。

阅读 18