大模型论文解读：Humpback

论文

Self-Alignment with Instruction Backtranslation 2308.06259

更多专栏文章点击查看：
LLM 架构专栏
 大模型架构专栏文章阅读指南
 Agent系列
 强化学习系列
欢迎加入大模型交流群：加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站：https://www.chenbaiqi.com

指令回译是一种可扩展的方法，通过用相应指令自动标记人类编写的文本，来构建高质量的遵循指令的语言模型。基于这种方法进行两轮微调后的 Llama 模型，在 Alpaca 排行榜上超越了所有其他基于 Llama 的模型，展现出了高效的自我对齐能力。

自我增强（生成指令）

从一个基础语言模型出发，结合少量（指令，输出）对的种子示例，以及一批被视作未知指令候选输出的未标记文档。利用种子示例中的（输出，指令）对，将基础模型微调为指令预测模型Myx，该模型用于为未标记数据的输出生成候选指令。

自我筛选（选择高质量示例）

从仅在种子示例上微调得到的中间指令遵循模型M0开始，它会从前面步骤生成的候选（指令，输出）对中选择高质量的A(1)k。这一过程通过提示实现，即让训练好的模型以5分制对候选对的质量进行评分。这些被选中的对随后被用作下一个中间模型M1的微调数据，而M1又被用于选择训练数据，进而得到M2。

种子数据、自我增强和自我筛选微调数据的统计信息。指令和输出的长度以字符数给出。

实验设置

种子数据

来自Open Assistant Dataset的3200个示例。

基础模型

LLaMA 7B、33B、65B。经过训练的基于 Llama 的指令回译模型被称为Humpback。

未标记数据

Clueweb语料库的英文部分。

基线模型

text-davinci-003
LIMA
Guanaco
评估来源
Vicuna（80个提示）
Self-instruct（252个提示）
Open Assistant（188个提示）
Koala（156个提示）
HH_RLHF（129个提示）
LIMA（300个提示）
作者众包（64个提示）。
评估
Alpaca评估

Alpaca排行榜上的结果（由GPT-4评估，相对于text-davinci-003的胜率）

Humpback在很大程度上超越了其他不依赖蒸馏数据的方法，并且缩小了与专有模型之间的差距。

人工评估

在两两人工偏好判断中，Humpback比开源和专有指令调整模型更受青睐。

本文由mdnice多平台发布

大模型论文解读：Humpback

论文

自我增强（生成指令）

自我筛选（选择高质量示例）

实验设置

种子数据

基础模型

未标记数据

基线模型

评估来源

评估

Alpaca评估

人工评估

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？