论文
Orca:从GPT-4复杂解释痕迹中进行渐进式学习 2306.02707
Orca: Progressive Learning from Complex Explanation Traces of GPT-4 2306.02707
更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站:https://www.chenbaiqi.com
一个130亿参数的大语言模型,学会模仿SOTA大语言模型的推理过程
一个具有130亿参数的大语言模型(LLM),它通过利用来自GPT-4的丰富信号(包括解释痕迹、逐步的思考过程以及其他复杂指令),并在ChatGPT的辅助指导下,学习模仿最先进(SOTA)大语言模型的推理过程。
解释微调
用GPT-4进行指令调整
为了解决现有研究的不足,本研究聚焦于大规模训练数据,这些数据包含多样的任务,还增添了复杂指令和丰富信号。数据包含从FLAN-v2(即Flan 2022)中抽样的大量任务的人工指令和增强系统指令。
训练数据中的每个实例都由三元组构成:〈系统消息,用户查询,大型基础模型(LFM)回复〉。
从FLAN-v2中抽取500万个用户查询,并收集ChatGPT的回复。从这500万个查询里再进一步抽取100万个指令,并收集GPT-4的回复。这500万的数据集称为FLAN-5M,而100万的数据集则叫做FLAN-1M。
向模型发出的所有查询都添加了系统指令。一共设计了16条系统消息,目的是激发模型给出不同类型的回复。
FLAN-v2数据集由五个子数据集组成,分别是思维链(CoT)、NiV2、T0、Flan 2021和对话(Dialogue)。每个子数据集包含多个任务,每个任务是一组查询。每个子数据集都关联多个学术数据集。从每个数据集中创建一个或多个任务,重点关注零样本和少样本查询。
在这项研究中,仅对零样本查询进行抽样来训练Orca。对话子数据集中的查询未被抽样,因为它们往往缺乏上下文,难以从ChatGPT那里引出有用的回复。
Orca首先在FLAN-5M上进行训练,接着在FLAN-1M上进行第二阶段训练。本质上,将ChatGPT用作中间辅助“教师”,主要有两个原因:
- 能力差距:在知识蒸馏过程中,利用能力差距较小的中间“教师”(此处指ChatGPT),已被证实能提升小型“学生”模型的模仿学习效果。
- 成本和时间
训练
使用LLaMA字节对编码(BPE)分词器来处理输入示例。值得注意的是,LLaMA分词器会把所有数字拆分成单个数字,对于未知的UTF-8字符,则会通过字节进行分解。为了处理长度不一的序列,在LLaMA分词器的词汇表中添加了一个填充标记“[[PAD]]”。最终的词汇表包含32001个标记。
为了优化训练过程并高效利用现有计算资源,采用了打包技术,最大长度设为2048个标记。这种方法是将多个输入示例连接成一个序列,然后用这个序列来训练模型。
在训练Orca时,仅对教师模型生成的标记计算损失,也就是说,它学习根据系统指令和任务指令生成回复。这种方式确保模型专注于从最相关、信息最丰富的标记中学习,进而提高训练过程的整体效率和效果。
评估
开放式生成
以ChatGPT(GPT-3.5-turbo)和GPT-4作为参考模型,在三个数据集上评估候选模型的性能。
经GPT-4评估,在所有数据集上,Orca保留了ChatGPT 95% 的质量和GPT-4 85% 的质量。
总体而言,Orca比Vicuna的得分提高了10分。
在Vicuna的原始评估设定下,Orca的表现与ChatGPT相当。
在涵盖多种生成角色的提示测试中,Orca表现出色,在Awesome提示数据集上,它保留了ChatGPT 98% 的质量和GPT-4 89% 的质量。
AGIEval结果
Orca在多个任务上的表现与Text-da-Vinci-003相近,但保留了ChatGPT 88% 的质量。在与数学相关的任务(如SAT、LSAT、GRE)中,它与GPT-4仍有较大差距。
与Vicuna相比,Orca在所有类别上的平均表现要优于它42%。
在众多任务的大量示例(350个实例)中,ChatGPT的表现优于Orca,其中逻辑推理问答(LogiQA)和法学院入学考试逻辑推理(LSAT-LR)贡献较大。相反,Orca在较少数量(325个实例)来自不同领域的示例中表现优于ChatGPT。
在AGIEval基准测试的多项选择英语问题中,对比使用不同系统消息训练的Orca的零样本性能。
对于经过训练的模型,空系统消息往往效果不错;不过,Orca的性能会因不同类型的系统消息而有所差异。
在ChatGPT的中间辅助下,将解释数据量扩大5倍,模型的总体性能提升了4.5分。
Big-Bench Hard结果
在所有任务上,Orca的总体表现略优于ChatGPT;与GPT-4相比仍有较大差距;比Vicuna的表现高出113%。
Orca在蕴含关系判断、语义理解、时空推理、因果判断以及电影推荐等方面表现更出色。
在需要世界知识的任务(如体育、艺术、幽默相关内容)中,Orca的表现不如ChatGPT。
ChatGPT相比Orca展现出更卓越的逻辑推理能力,在几何推理方面也更胜一筹。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。