更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

论文

Effective Long-Context Scaling of Foundation Modelshttps://arxiv.org/abs/2309.16039

LLaMA 2 Long是一系列长上下文大语言模型(LLMs),通过对LLaMA 2进行持续预训练构建而成。它采用了更长的训练序列,能够支持高达32,768个词元的有效上下文窗口。

持续预训练

使用更长的序列长度进行训练,会因二次注意力计算而带来显著的计算开销。这就是我们采用持续预训练方法的主要原因。原始的Llama 2架构几乎保持不变,仅对位置编码做了一些必要的修改,这对于模型处理更长的上下文至关重要。

由于考虑到LLAMA 2 700亿参数版本(LLAMA 2 70B)的模型维度(h = 8192),只有当序列长度超过49,152个词元时,注意力矩阵计算和值聚合的成本才会成为计算瓶颈,因此并没有应用稀疏注意力机制。

为了进行长上下文建模,对旋转位置嵌入(RoPE)位置编码进行了一项最小但必要的修改——减小旋转角度(由超参数“基础频率b”控制),这可以降低RoPE对远距离词元的衰减效应。

研究人员通过调整LLAMA 2预训练数据的比例,或者添加新的长文本数据,使用不同的预训练数据组合进行实验,以提升模型的长上下文能力。结果发现,对于长上下文持续预训练而言,数据的质量往往比文本的长度更为关键。

在保持与LLAMA 2每批次词元数量相同的情况下,借助FLASH ATTENTION技术,并增加序列长度,对LLAMA 2的检查点进行持续预训练。

指令微调

收集人类示例和偏好标签,以便让大语言模型与特定任务保持一致,这可能是一个既困难又成本高昂的过程。

在处理长上下文场景时,这个挑战更为明显,因为它通常涉及复杂的信息流和专业知识,比如处理内容密集的法律或科学文档。

因此,研究人员利用LLAMA 2 CHAT中使用的基于人类反馈的强化学习(RLHF)数据集,并通过由LLAMA 2 CHAT生成的合成自指令长数据对其进行扩充。其核心思路是,通过使用大量短提示数据,模型可以学习各种技能,然后通过自指令数据将这些知识迁移到长上下文场景中。

数据生成过程主要聚焦于问答(QA)格式的任务。从预训练语料库中的一篇长文档开始,随机选择一段文本,然后促使LLAMA 2 CHAT基于该文本块中的信息生成问答对。通过不同的提示,收集长答案和短答案。此外,还采用了自我批判步骤,即促使LLAMA 2 CHAT对自己生成的答案进行验证。

对于短指令数据,数据点会被连接成最长达16,384个词元的序列。对于长指令数据,则在右侧添加填充词元,使模型能够单独处理每个长实例而无需截断。

结果

短任务

  1. 标准短上下文基准测试性能:该模型的表现总体上与LLAMA 2相当,甚至更优。在编码、数学,以及像大规模多任务语言理解(MMLU)这类知识密集型任务中,有显著的提升。
  2. 与封闭模型在标准短任务上的比较:在MMLU和GSM8k任务上,该模型的表现优于GPT-3.5。这些改进得益于额外的计算浮点运算次数,以及从长数据中获取的知识。

长任务

  1. 与开源长上下文模型在研究基准测试上的比较:该模型取得了优于上述模型的性能。“Together-7B 32k”是唯一一款在70亿参数规模上,能与该模型性能相媲美的模型。需要注意的是,“Together-7B 32k”并非完全基于自监督训练,它使用了一个大型监督数据集进行微调,以实现少样本学习的提升。
  2. 有效上下文利用:随着提示的最大上下文长度增加,模型在长上下文任务上的性能表现。增加上下文窗口可以提升长任务的结果。语言建模损失与上下文长度之间,遵循幂律加常数的缩放关系。该模型在处理长达32,768个词元的文本时,语言建模损失有所改善,但收益逐渐递减。将上下文长度翻倍,大约可以将损失降低至0.7倍,再加上一个特定于模型的常数。曲线的β值越大,表明更大的模型能够更有效地利用上下文。

指令微调结果

  1. ZeroSCROLLS长上下文排行榜结果:对经过指令微调的模型,在ZeroSCROLLS数据集上进行测试。该数据集包含10个长上下文数据集,涵盖总结、问答,以及多文档聚合任务。结果显示,即使没有使用人工标注的长上下文数据,700亿参数的聊天模型在10个任务中的7个上,表现优于gpt-3.5-turbo-16k。
  2. 在LEval中引入的六个新长任务上的评估:评估结果表现出色,特别是在与自指令数据主题一致的问答任务中。

人工评估

基于多轮对话和多文档搜索查询回答数据,评估人员对模型回复的人工偏好。评估人员被要求将经过指令微调的模型生成的内容,与专有模型(MPT-30B-chat、GPT-4、GPT-3.5-turbo-16k、Claude-2)进行比较。在使用极少指令数据的情况下,该模型与MPT-30B-chat、GPT-3.5-turbo-16k、Claude-2相比,仍取得了具有竞争力的性能。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝