论文
Self-Alignment with Instruction Backtranslation 2308.06259
更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站:https://www.chenbaiqi.com
指令回译是一种可扩展的方法,通过用相应指令自动标记人类编写的文本,来构建高质量的遵循指令的语言模型。基于这种方法进行两轮微调后的 Llama 模型,在 Alpaca 排行榜上超越了所有其他基于 Llama 的模型,展现出了高效的自我对齐能力。
自我增强(生成指令)
从一个基础语言模型出发,结合少量(指令,输出)对的种子示例,以及一批被视作未知指令候选输出的未标记文档。利用种子示例中的(输出,指令)对,将基础模型微调为指令预测模型Myx,该模型用于为未标记数据的输出生成候选指令。
自我筛选(选择高质量示例)
从仅在种子示例上微调得到的中间指令遵循模型M0开始,它会从前面步骤生成的候选(指令,输出)对中选择高质量的A(1)k。这一过程通过提示实现,即让训练好的模型以5分制对候选对的质量进行评分。这些被选中的对随后被用作下一个中间模型M1的微调数据,而M1又被用于选择训练数据,进而得到M2。
实验设置
种子数据
来自Open Assistant Dataset的3200个示例。
基础模型
LLaMA 7B、33B、65B。经过训练的基于 Llama 的指令回译模型被称为Humpback。
未标记数据
Clueweb语料库的英文部分。
基线模型
- text-davinci-003
- LIMA
Guanaco
评估来源
- Vicuna(80个提示)
- Self-instruct(252个提示)
- Open Assistant(188个提示)
- Koala(156个提示)
- HH_RLHF(129个提示)
- LIMA(300个提示)
作者众包(64个提示)。
评估
Alpaca评估
Humpback在很大程度上超越了其他不依赖蒸馏数据的方法,并且缩小了与专有模型之间的差距。
人工评估
在两两人工偏好判断中,Humpback比开源和专有指令调整模型更受青睐。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。