用于大型语言模型推理的强化学习状态

本月发生了很多事,尤其是新旗舰模型如 GPT-4.5 和 Llama 4 的发布,但对这些发布的反应相对平淡。原因之一可能是它们仍是传统模型,训练时未使用明确的推理强化学习。

竞争对手如 xAI 和 Anthropic 已在其模型中添加了更多推理能力和特征,如 xAI Grok 和 Anthropic Claude 接口现在有“思考”(或“扩展思考”)按钮可明确切换推理能力。

对 GPT-4.5 和 Llama 4(非推理)模型的平淡反应表明,仅靠扩展模型规模和数据已接近极限。然而,OpenAI 最近发布的 o3 推理模型表明,通过针对推理任务定制的强化学习方法进行战略投资仍有很大改进空间。

文章探讨了通过强化学习进行推理的最新发展,包括理解推理模型、RLHF 基础、PPO 简介、RL 算法从 PPO 到 GRPO、RL 奖励建模从 RLHF 到 RLVR 以及 DeepSeek-R1 推理模型的训练等方面。

理解推理模型:推理是使语言模型更擅长处理复杂任务的推断和训练技术,可通过中间步骤生成最终答案,如链上思考推理,目前有通过增加训练或测试时计算来提高准确性的两种方式,本文主要关注训练方法。

RLHF 基础:强化学习训练方法与用于开发和对齐常规语言模型的人类反馈强化学习(RLHF)方法相关,常规语言模型训练通常包括预训练、监督微调和对齐(通常通过 RLHF),RLHF 旨在使语言模型与人类偏好对齐,包括监督微调、创建奖励模型和通过近端策略优化(PPO)进行微调等步骤。

PPO 简介:原始 RLHF 方法使用近端策略优化(PPO)算法,旨在提高训练策略的稳定性和效率,通过限制策略在每次更新步骤中的变化、添加 KL 散度惩罚和熵奖励等来实现,涉及多个模型,如策略、奖励模型、批评家和参考模型等。

RL 算法:从 PPO 到 GRPO,DeepSeek-R1 使用的算法是 Group Relative Policy Optimization(GRPO),其关键动机是提高计算效率,通过丢弃“批评家”(价值模型),采用更简单的方法根据策略模型自身的多个答案的相对质量来计算优势。

RL 奖励建模:从 RLHF 到 RLVR,DeepSeek 团队将类似的基于 RL 的方法用于训练 R1 和 R1-Zero 模型的推理能力,采用强化学习与可验证奖励(RLVR),绕过了奖励模型的需求,使用自动正确性检查作为监督信号,更高效。

DeepSeek-R1 推理模型的训练:有三种类型的模型,DeepSeek-R1-Zero 用纯 RL 训练,DeepSeek-R1 用指令微调、RLVR 和 RLHF 交替训练,DeepSeek-Distill 变体通过指令微调生成,且不使用 RL 进行推理部分训练,DeepSeek 团队使用基于规则的奖励来训练 DeepSeek-R1-Zero 和 DeepSeek-R1 的推理能力。

从近期 RL 论文中得到的关于训练推理模型的教训:

  1. 强化学习进一步改善蒸馏模型,监督微调后再进行强化学习优于纯 RL,且对蒸馏模型有显著提升,但基准结果有时可能夸大了改进。
  2. 存在长错误答案问题,PPO 和 GRPO 都有长度偏差,有研究探索了处理方法。
  3. RL 诱导出有价值的自我验证和反思推理能力,扩展上下文长度可进一步提高模型的自我反思和自我纠正能力。
  4. 推理能力可在特定领域外泛化,训练在逻辑谜题上的模型在数学推理任务中也表现良好。
  5. 推理能力可自然扩展到更广泛的领域,如医学、化学等,下一步是将现有推理模型与外部工具使用等能力集成。
  6. 推理是否仅由 RL 导致存在争议,近期发现基础模型可能已存在推理行为,预训练可能也会诱导推理能力。

值得注意的研究论文:包括 Kimi k1.5、Competitive Programming with Large Reasoning Models、Exploring the Limit of Outcome Reward、Logic-RL、L1、R1-Searcher、DAPO、Reinforcement Learning for Reasoning in Small LLMs、Learning to Reason with Search、Understanding R1-Zero-Like Training、Expanding RL with Verifiable Rewards Across Diverse Domains、Open-Reasoner-Zero、Rethinking Reflection in Pre-Training、Concise Reasoning via Reinforcement Learning 和 A Sober Look at Progress in Language Model Reasoning 等,这些论文从不同角度对训练推理模型进行了研究和探讨。

阅读 8
0 条评论