强化学习中的关键模型与算法:从Actor-Critic到GRPO
强化学习中的Actor-Critic模型是什么?
这与生成对抗网络(GANs)十分相似。在生成对抗网络中,生成器和判别器模型在整个训练过程中相互对抗。在强化学习的Actor-Critic模型中,也存在类似的概念:
Actor-Critic(A2C、A3C)是一种流行的强化学习架构,它结合了两个组件:
Actor(行动者)——学习策略($\pi_{\theta}$)并决定采取何种行动。
Critic(评判者)——评估价值函数($V(s)$)以指导行动者。
其工作原理如下:
行动者根据评判者的反馈来更新策略。
评判者估计预期奖励,并减少学习过程中的方差。
你可以在此处阅读更多关于Actor-Critic方法的内容:
在你掌握了基础知识之后……
GRPO强化学习算法是什么?
在深入研究数学原理之前,我们先来看一个例子。
GRPO(Group Relative Policy Optimization,组相对策略优化)是强化学习(RL)中使用的一种方法。它通过比较不同的行动,并利用一组观测值进行小幅度、可控的更新,帮助模型更好地学习。这就像是一种从经验中学习的巧妙方式,不会做出可能把事情搞砸的大幅度改变。
想象一下,你正在教一个机器人玩一个简单的游戏,在游戏中它必须在不同路径中做出选择以达到目标。机器人需要了解哪些路径是好的,哪些不是。
GRPO通过以下方式帮助机器人实现这一目标:
尝试不同路径:机器人从其当前策略中尝试几种不同的路径(行动)。
比较性能:它比较每条路径的效果如何。
进行小幅度调整:基于比较结果,机器人对其策略进行小幅度改变以提高性能。
示例:机器人选择路径
假设机器人在迷宫中,必须在三条路径(A、B和C)中选择一条以到达目标。以下是GRPO的逐步工作过程:
采样路径:
机器人对每条路径都尝试几次,并记录结果。
路径A:3次尝试中有2次成功。
路径B:3次尝试中有1次成功。
路径C:3次尝试全部成功。
计算性能:
机器人计算每条路径的成功率:
路径A:成功率为66.67%。
路径B:成功率为33.33%。
路径C:成功率为100%。
请注意,更新将在观察到“$x$”个观测值之后进行,而不是在每次试验之后。这与小批量梯度非常相似。
比较路径:
机器人比较这些成功率,以确定哪条路径最好。
显然路径C是最好的,因为它的成功率最高。
调整策略:
机器人更新其策略,以便在未来更多地选择路径C。
但它并不会完全忽略路径A和路径B。它仍然会偶尔尝试它们,看看它们是否有所改进。
可控的更新:
机器人确保不会过度改变其策略。例如,它可能会将选择路径C的概率从30%提高到50%,但不会一下子提高到100% 。这样,它仍然可以探索其他路径并学到更多。
现在,让我们深入研究一下数学原理。
GRPO算法的数学原理
- 策略与行动
用 $\pi_{\theta}$ 表示策略,其中 $\theta$ 代表策略的参数。
对于给定的状态 $s$,策略输出关于行动的概率分布:$\pi_{\theta}(a|s)$,即(在给定状态下选择哪个行动)。
目标是最大化预期累积奖励 $J(\theta)$:
$$J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}[\sum_{t = 0}^{\infty} \gamma^{t} r(s_{t}, a_{t})]$$
其中 $\tau=(s_{0},a_{0},s_{1},a_{1},\cdots )$ 是一个轨迹(过去采取的状态 - 行动),$r(s_{t}, a_{t})$ 是在时间 $t$ 时获得的奖励。
GRPO为何有效
组内比较:通过在组内比较行动,GRPO减少了策略更新的方差,并确保学习更加稳定。
可控更新:KL散度约束防止对策略进行大幅度、不稳定的改变。
效率:GRPO避免了评估每一个可能行动的需要,使其在计算上更高效。
GRPO如何用于训练大语言模型(LLMs)?
组采样:对于给定的提示,大语言模型生成多个响应。
奖励评分:一个奖励模型评估每个响应的质量。
优势计算:将响应与组的平均奖励进行比较,以确定哪些更好或更差。
策略更新:大语言模型的策略被调整,以偏向高奖励的响应,同时使用KL散度约束避免大幅度改变。
迭代训练:这个过程不断重复,逐渐提高大语言模型生成高质量、符合要求文本的能力。
以上就是纯粹的强化学习用于训练大语言模型的方式。
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。