Google DeepMind发布SCoRe技术:通过强化学习提升LLM的自我纠正能力
Google DeepMind最近发表了一篇关于自我纠正通过强化学习(Self-Correction via Reinforcement Learning, SCoRe)的论文,该技术旨在提升大语言模型(LLM)在解决数学或编程问题时的自我纠正能力。通过SCoRe微调的模型在多个基准测试中表现优于基线模型。
SCoRe的核心创新
与以往依赖提示工程或独立“教师”模型的自我纠正方法不同,SCoRe利用LLM自身生成的数据来创建自我纠正轨迹。这些轨迹是合成的对话,其中LLM首先给出错误回答,随后通过纠正提示,最终生成正确回答。这些数据被用于一个两阶段的强化学习(RL)过程来微调LLM。
性能提升
在评估中,经过SCoRe微调的LLM相比基线Gemini 1.0模型,在MATH基准测试中提升了15.6个百分点,在HumanEval基准测试中提升了9.1个百分点。Google指出:
我们的两阶段方法(基于谨慎的初始化和奖励塑造)在获得积极的自我纠正方面的重要性,可能更普遍地暗示了某种正则化是必要的,以确保LLM学习到能够很好地推广到测试时未见查询的细致策略。
SCoRe的训练过程
SCoRe通过两阶段的RL过程改进模型。第一阶段,模型被训练保持初始回答不变,但在第二次尝试时生成正确回答。第二阶段,模型在两次回答都正确时获得奖励,第二次回答改善时获得额外奖励。目标是防止模型仅学会“生成最佳首次回答并仅进行微小编辑”。
与其他方法的比较
DeepMind团队在研究其他方法的不足后开发了SCoRe。他们指出,没有主要研究表明仅靠提示工程可以在现成模型中实现成功的自我纠正。使用监督微调(SFT)改进模型通常需要人类或更强的LLM提供纠正,而使用自我生成纠正的SFT方法“通常放大了模型不进行纠正的偏见”,或者“受到分布偏移的诅咒”。
社区反应
在Reddit和Hacker News的讨论中,用户对SCoRe表示兴趣,并希望看到更多关于后续纠正回合的示例。一些用户将SCoRe与OpenAI的Omni模型微调方法进行比较,指出两者都涉及通过强化学习教授模型从错误推理中恢复。
相关报道
InfoQ此前报道了OpenAI发布的Omni模型及其使用LLM生成训练数据以改进ChatGPT生成的代码。这些报道与SCoRe技术的发展共同展示了LLM在自我纠正和推理能力提升方面的持续进步。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。