更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站:https://www.chenbaiqi.com
大语言模型的训练分为两个阶段:第一阶段,通过对原始文本进行无监督预训练,学习通用的表征;第二阶段,进行大规模的指令微调与强化学习,使模型能更好地契合终端任务以及用户偏好。
研究人员通过训练LIMA模型,来衡量这两个阶段的相对重要性。LIMA是一个具有650亿参数的LLaMa语言模型,仅在精心挑选的1000个提示和回复上,使用标准监督损失进行微调,没有采用任何强化学习或人类偏好建模。
LIMA展现出了非常强大的性能,它能够学习遵循特定的回复格式。此外,该模型在处理未见过的任务时,也能有不错的泛化表现。
研究结果有力地表明,大语言模型中的几乎所有知识都是在预训练阶段学到的,仅需有限的指令微调数据,就能教会模型生成高质量的输出。
数据
研究人员收集了一个包含1000个提示和回复的数据集,其中回复在风格上保持一致,但提示丰富多样。具体来说,输出的风格类似于一个乐于助人的人工智能助手。此外,还收集了一个包含300个提示的测试集和一个包含50个提示的开发集。
训练数据来源
训练数据总量约为75万个词元,精确地分布在1000个序列中。
训练
使用1000个示例的对齐训练集对LLaMa 65B进行微调。为了区分每个说话者(用户和助手),在每次话语结束时引入了一个特殊的结束回合标记(EOT);这个标记与停止生成的EOS标记作用相同,但避免了与预训练模型可能赋予现有EOS标记的其他含义混淆。
实验设置
基线模型
- Alpaca 65B:在Alpaca训练集中的5.2万个示例上对LLaMa 65B进行微调。
- OpenAI的DaVinci003:这是一个通过人类反馈强化学习(RLHF)进行微调的大语言模型。
- 谷歌的Bard:基于PaLM模型开发。
- Anthropic的Claude:一个拥有520亿参数的模型,通过AI反馈强化学习进行训练。
- OpenAI的GPT-4:通过RLHF训练的大语言模型,目前被认为是最先进的模型。
所有基线模型的回复均在2023年4月期间采样获得。
方法
在每一步中,注释者会看到一个提示,以及由不同模型生成的两个可能回复。注释者需要标记出哪个回复更好,或者两个回复是否都没有明显优势。
同时,使用GPT-4按照完全相同的指令和数据进行并行注释。
结果
- 人类偏好评估:在300个测试提示上,将LIMA与5种不同的基线模型进行比较。
- 使用GPT-4作为注释者的偏好评估:给予与人类注释者相同的指令。
尽管Alpaca 65B的训练数据量是LIMA的52倍,但它生成的输出往往不如LIMA受青睐。
DaVinci003的情况也是如此,尽管程度稍轻。DaVinci003采用了RLHF这种被认为更优越的对齐方法进行训练。
Bard的表现与DaVinci003相反,42%的情况下,它生成的回复比LIMA更好;然而,这也意味着58%的情况下,LIMA的回复至少与Bard相当。
Claude和GPT-4总体表现优于LIMA,但在不少情况下,LIMA确实能生成更好的回复。或许有些讽刺的是,即使是GPT-4,也有19%的情况认为LIMA的输出比自己的更好。
多轮对话
对10个测试对话的平均轮次进行分析。
在10个实时对话中对LIMA进行测试,将每个回复标记为失败、通过或优秀。
对于一个零样本聊天机器人来说,LIMA的回复连贯性惊人,它能参考对话中前序步骤的信息。不过很明显,该模型的表现超出了其训练分布;在10个对话中,有6个对话里LIMA在3次交互内未能遵循提示要求。
为了提高LIMA的对话能力,研究人员收集了30个多轮对话链。其中,10个对话由作者编写,其余20个基于Stack Exchange上的评论链,并进行编辑以符合助手的风格。
使用这1030个示例,从预训练的LLaMa模型中微调得到一个新版本的LIMA,并基于零样本模型使用的相同提示进行10个实时对话。
增加对话数据显著提高了生成质量,优秀回复的比例从45.2%提升到了76.1%。
论文
LIMA: Less Is More for Alignment 2305.11206
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。