强化学习中的关键模型与算法：从Actor-Critic到GRPO

强化学习中的Actor-Critic模型是什么？

这与生成对抗网络（GANs）十分相似。在生成对抗网络中，生成器和判别器模型在整个训练过程中相互对抗。在强化学习的Actor-Critic模型中，也存在类似的概念：

Actor-Critic（A2C、A3C）是一种流行的强化学习架构，它结合了两个组件：

Actor（行动者）——学习策略（$\pi_{\theta}$）并决定采取何种行动。

Critic（评判者）——评估价值函数（$V(s)$）以指导行动者。

其工作原理如下：

行动者根据评判者的反馈来更新策略。

评判者估计预期奖励，并减少学习过程中的方差。

你可以在此处阅读更多关于Actor-Critic方法的内容：

在你掌握了基础知识之后……

GRPO强化学习算法是什么？

在深入研究数学原理之前，我们先来看一个例子。

GRPO（Group Relative Policy Optimization，组相对策略优化）是强化学习（RL）中使用的一种方法。它通过比较不同的行动，并利用一组观测值进行小幅度、可控的更新，帮助模型更好地学习。这就像是一种从经验中学习的巧妙方式，不会做出可能把事情搞砸的大幅度改变。

想象一下，你正在教一个机器人玩一个简单的游戏，在游戏中它必须在不同路径中做出选择以达到目标。机器人需要了解哪些路径是好的，哪些不是。

GRPO通过以下方式帮助机器人实现这一目标：

尝试不同路径：机器人从其当前策略中尝试几种不同的路径（行动）。

比较性能：它比较每条路径的效果如何。

进行小幅度调整：基于比较结果，机器人对其策略进行小幅度改变以提高性能。

示例：机器人选择路径

假设机器人在迷宫中，必须在三条路径（A、B和C）中选择一条以到达目标。以下是GRPO的逐步工作过程：

采样路径：

机器人对每条路径都尝试几次，并记录结果。

路径A：3次尝试中有2次成功。

路径B：3次尝试中有1次成功。

路径C：3次尝试全部成功。

计算性能：

机器人计算每条路径的成功率：

路径A：成功率为66.67%。

路径B：成功率为33.33%。

路径C：成功率为100%。

请注意，更新将在观察到“$x$”个观测值之后进行，而不是在每次试验之后。这与小批量梯度非常相似。

比较路径：

机器人比较这些成功率，以确定哪条路径最好。

显然路径C是最好的，因为它的成功率最高。

调整策略：

机器人更新其策略，以便在未来更多地选择路径C。

但它并不会完全忽略路径A和路径B。它仍然会偶尔尝试它们，看看它们是否有所改进。

可控的更新：

机器人确保不会过度改变其策略。例如，它可能会将选择路径C的概率从30%提高到50%，但不会一下子提高到100% 。这样，它仍然可以探索其他路径并学到更多。

现在，让我们深入研究一下数学原理。

GRPO算法的数学原理

策略与行动

用 $\pi_{\theta}$ 表示策略，其中 $\theta$ 代表策略的参数。

对于给定的状态 $s$，策略输出关于行动的概率分布：$\pi_{\theta}(a|s)$，即（在给定状态下选择哪个行动）。

目标是最大化预期累积奖励 $J(\theta)$：
$$J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}[\sum_{t = 0}^{\infty} \gamma^{t} r(s_{t}, a_{t})]$$
其中 $\tau=(s_{0},a_{0},s_{1},a_{1},\cdots )$ 是一个轨迹（过去采取的状态 - 行动），$r(s_{t}, a_{t})$ 是在时间 $t$ 时获得的奖励。

GRPO为何有效

组内比较：通过在组内比较行动，GRPO减少了策略更新的方差，并确保学习更加稳定。

可控更新：KL散度约束防止对策略进行大幅度、不稳定的改变。

效率：GRPO避免了评估每一个可能行动的需要，使其在计算上更高效。

GRPO如何用于训练大语言模型（LLMs）？

组采样：对于给定的提示，大语言模型生成多个响应。

奖励评分：一个奖励模型评估每个响应的质量。

优势计算：将响应与组的平均奖励进行比较，以确定哪些更好或更差。

策略更新：大语言模型的策略被调整，以偏向高奖励的响应，同时使用KL散度约束避免大幅度改变。

迭代训练：这个过程不断重复，逐渐提高大语言模型生成高质量、符合要求文本的能力。

以上就是纯粹的强化学习用于训练大语言模型的方式。

本文由mdnice多平台发布

强化学习中的关键模型与算法：从Actor-Critic到GRPO

强化学习中的关键模型与算法：从Actor-Critic到GRPO

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略