SFT记忆,RL泛化:基础模型训练后的比较研究
📖阅读时长:19分钟
🕙发布时间:2025-02-12
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
本文研究了SFT和RL对泛化和记忆的比较影响,重点关注基于文本和视觉的环境。研究表明:
强化学习(RL),尤其是在使用基于结果的奖励进行训练时,在基于规则的文本和视觉环境中都能实现泛化。相比之下,监督微调(SFT)倾向于记忆训练数据,在这两种情况下,都难以实现分布外的泛化。
尽管RL具有卓越的泛化能力,但SFT仍然有助于有效的RL训练:SFT稳定了模型的输出格式,使后续的RL能够实现性能提升。
评估任务
为了评估不同后训练方法的泛化能力,研究人员选择了两个任务,每个任务都包含规则和视觉变化。第一个任务GeneralPoints,是一个新设计的环境,用于评估算术推理能力。第二个任务V-IRL,则用于检验模型在开放世界视觉导航领域的推理能力。
GeneralPoints环境
GeneralPoints环境是在Points24环境的基础上实例化的,旨在评估算术推理的泛化能力。该环境的每个状态 $s$ 都包含4张卡片,这些卡片在GP-L变体中以文本形式描述,在GP-VL变体中则以图像形式呈现。任务的目标是使用卡片上的4个数字,且每个数字仅使用一次,生成一个等于目标数字(默认为24)的方程式。
规则变化:为了研究模型是真正学习了算术运算,还是仅仅记住了训练后的数据,在GeneralPoints环境中引入了规则变化。这些变化包括将符号“J”“Q”“K”分别解释为“11”“12”“13”,或者全部解释为数字“10”。每个规则在输入提示中以文本形式指定。为了研究基于规则的泛化,模型会先使用一种规则进行后训练,然后再用另一种规则进行评估。
视觉变化:主要的视觉挑战是识别每张卡片的数字,这与卡片的颜色无关。不同颜色的卡片被视为该任务的视觉变体。在视觉泛化设置中,模型会使用一种颜色的卡片进行训练,然后用另一种颜色的卡片测试其分布外(OOD)性能。
V-IRL环境
V-IRL环境用于研究在使用逼真视觉输入的开放世界导航领域中的空间推理能力。在V-IRL中,主要的视觉挑战是在采取行动之前,从视觉观察中识别不同的地标。任务目标是根据一组包含空间信息的指令,导航到目标位置。
规则变化:为了评估模型是具备空间知识,还是仅仅记住了训练后的数据,研究考虑了两种不同的动作空间配置。第一种变体使用绝对方向动作空间,包括{‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。第二种变体采用相对方向动作空间,包含{‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。这种相对配置会分别将当前方向向左或向右调整90度或45度。
视觉变化:V-IRL中的关键视觉挑战是从视觉观察中识别地标。由于V-IRL环境包含来自不同城市的视觉观察,因此可以通过训练模型在一个位置导航,然后评估其在不同位置的性能,来评估V-IRL中的视觉泛化能力。
实验
研究使用Llama-3.2-Vision-11B作为主干模型。
跨规则泛化
针对每个任务(GeneralPoints和V-IRL,包括仅语言-L和视觉语言-VL变体)的单个规则,训练RL和SFT模型。评估模型在训练过的规则(分布内-ID)和未见过的规则(分布外-OOD)上的性能,以衡量泛化能力。
- GeneralPoints:ID将“J”“Q”“K”视为10;OOD将它们视为11、12和13。
- V-IRL:ID使用绝对方向坐标;OOD使用相对方向动作空间。
结果显示,在单峰(LLM)和多峰(VLM)设置下,RL在所有任务(GP-L、GP-VL、V-IRL-L、V-IRL-VL)上,始终如一地提高了OOD性能。而SFT在所有任务的所有OOD评估中,始终表现出性能下降。这表明RL比SFT更能泛化,SFT倾向于记住训练规则。
视觉分布外任务中的泛化
- GeneralPoints(GP-VL):在黑色花色(♠, ♣)的卡片上训练,在红色花色(♥, ♦)的卡片上测试。
- V-IRL:使用在纽约市收集的路线进行训练,并根据包含来自全球各个城市路线的原始V-IRL VLN迷你基准测试进行评估。
实验结果表明,RL在视觉OOD任务中通用性很好,而SFT的性能会下降。此外,多圈RL公式将V-IRL迷你基准测试的最新结果提高了33.8%(从44.0%提升到77.8%)。与两阶段VLM-LLM协作技术和闭源模型上的定制提示工程相比,端到端RL方法使开源模型能够实现卓越的性能。
SFT在RL训练中的作用
在纯语言设置中,使用GeneralPoints将端到端RL直接应用于基础Llama3.2模型(无需事先进行SFT)。实验发现,当主干模型(在本研究中为Llama3.2)不能很好地遵循指令时,SFT对于RL训练是必要的。没有SFT,端到端RL训练无法提高性能。没有SFT的基础Llama3.2模型,指令跟随能力较差,会生成冗长、离题且无结构的响应,这使得检索与任务相关的信息和RL训练的奖励变得困难。
论文:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training(2501.17161)
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。