论文

Self-Alignment with Instruction Backtranslation 2308.06259

更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

指令回译是一种可扩展的方法,通过用相应指令自动标记人类编写的文本,来构建高质量的遵循指令的语言模型。基于这种方法进行两轮微调后的 Llama 模型,在 Alpaca 排行榜上超越了所有其他基于 Llama 的模型,展现出了高效的自我对齐能力。

自我增强(生成指令)

从一个基础语言模型出发,结合少量(指令,输出)对的种子示例,以及一批被视作未知指令候选输出的未标记文档。利用种子示例中的(输出,指令)对,将基础模型微调为指令预测模型Myx,该模型用于为未标记数据的输出生成候选指令。

自我筛选(选择高质量示例)

从仅在种子示例上微调得到的中间指令遵循模型M0开始,它会从前面步骤生成的候选(指令,输出)对中选择高质量的A(1)k。这一过程通过提示实现,即让训练好的模型以5分制对候选对的质量进行评分。这些被选中的对随后被用作下一个中间模型M1的微调数据,而M1又被用于选择训练数据,进而得到M2。

种子数据、自我增强和自我筛选微调数据的统计信息。指令和输出的长度以字符数给出。

实验设置

种子数据

来自Open Assistant Dataset的3200个示例。

基础模型

LLaMA 7B、33B、65B。经过训练的基于 Llama 的指令回译模型被称为Humpback。

未标记数据

Clueweb语料库的英文部分。

基线模型

  • text-davinci-003
  • LIMA
  • Guanaco

    评估来源

  • Vicuna(80个提示)
  • Self-instruct(252个提示)
  • Open Assistant(188个提示)
  • Koala(156个提示)
  • HH_RLHF(129个提示)
  • LIMA(300个提示)
  • 作者众包(64个提示)。

    评估

    Alpaca评估

Alpaca排行榜上的结果(由GPT-4评估,相对于text-davinci-003的胜率)

Humpback在很大程度上超越了其他不依赖蒸馏数据的方法,并且缩小了与专有模型之间的差距。

人工评估

在两两人工偏好判断中,Humpback比开源和专有指令调整模型更受青睐。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝