2万字长文，九篇论文读懂大语言模型的前世今生

友情提示：这是一篇2W字长文，但我保证，它绝对值得一读！如果感兴趣的话，感谢关注，点赞转发在看收藏，五键四连，谢谢~
更多LLM架构文章：LLM架构专栏
近日热文：
1. 全网最全的神经网络数学原理（代码和公式）直观解释
 2. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路
 3. 2W8000字深度剖析25种RAG变体：全网最全~没有之一
 4. 3W6000字了解大模型LLM：部署、优化与框架
 知乎【柏企】
公众号【柏企阅文】

大语言模型（LLMs）彻底改变了人工智能领域，但它的发展并非一蹴而就。一系列具有开创性的研究论文提出了核心观点，才让如今的人工智能成为可能——从Transformer的诞生，到能够遵循指令、逐步推理，甚至使用外部工具的模型。

在这篇文章中，我们将探索九篇对现代大语言模型影响最为深远的论文。我们会深入剖析它们提出的关键概念、为何具有革命性意义，以及它们如何影响研究和现实世界中的人工智能应用。无论你是科技爱好者还是行业专业人士，这篇指南都能帮你梳理人工智能领域这些关键进展之间的脉络。

1.《Attention Is All You Need》（2017年）—— 引入Transformer

2017年，Vaswani等人撰写的《Attention Is All You Need》论文，介绍了Transformer架构，这是一种完全基于自注意力机制的深度神经网络。在此之前的序列模型（如循环神经网络RNNs）是按顺序处理单词的，而Transformer通过让每个单词借助注意力权重“关注”其他所有单词，实现了对整个序列的并行处理。这一点至关重要，因为它摒弃了循环结构，大大提高了训练的并行化程度和效率。例如，Transformer的自注意力机制使它无需逐词读取句子，而是可以同时查看所有单词，并判断哪些单词与理解每个单词最相关。这种架构在更短的训练时间内实现了最先进的翻译质量，也为几乎所有现代大语言模型奠定了基础。

重要意义

Transformer证明了仅靠注意力机制就足以捕捉语言中的关系，摒弃了速度较慢的循环计算。自注意力层能够学习上下文关系，例如在一个句子中，单词“it”可以关注到它所指代的名词，无论它们之间相隔多远。论文还引入了多头注意力机制，模型可以并行地从多个表示子空间中获取信息，这使得模型能够同时学习语言的不同方面（如语法、语义等）。最终的结果是，模型不仅更加准确，而且在像GPU这样的并行硬件上训练速度也大大加快。

对行业和研究的影响

Transformer迅速成为自然语言处理模型事实上的骨干架构（可查看 “Visualizing and Explaining Transformer Models From the Ground Up — Deepgram Blog ”）。它使得训练更大规模的模型（拥有数十亿参数）成为可能，因为训练可以分布式进行并扩展。在短短一年内，研究人员将Transformer应用到翻译以外的许多领域（如文本摘要、语言理解等），它甚至启发了其他领域的应用（如计算机视觉中的视觉Transformer）。这篇论文的观点直接促成了后续像BERT和GPT这样的突破。总之，《Attention Is All You Need》这篇论文名副其实地变革了自然语言处理领域，表明在序列建模方面，注意力机制真的至关重要。

关联

Transformer是在早期注意力机制研究（如2015年Bahdanau等人针对RNN的研究）的基础上发展而来的，但它完全摒弃了RNN的其他部分。它为后续的论文奠定了基础 —— BERT使用Transformer的编码器堆栈，GPT使用解码器堆栈，诸如此类。如今，几乎所有现代人工智能模型，从语言模型到图像处理模型，都是基于Transformer架构的变体。

如今，几乎所有现代人工智能模型，从语言模型到图像处理模型，都是基于Transformer架构构建的。

2.《BERT: Pre-training of Deep Bidirectional Transformers》（2018年）—— 双向编码实现上下文理解

2018年，Devlin等人推出了BERT（Bidirectional Encoder Representations from Transformers，基于Transformer的双向编码器表征），这是一个基于Transformer的模型，旨在通过从两个方向审视上下文来理解语言。与从左到右预测下一个单词的模型不同，BERT是在掩码语言建模任务上进行训练的：它会随机隐藏（掩码）句子中的一些单词，并利用左右两侧的上下文单词来预测这些被隐藏的单词。例如，给定“Alice went to the [MASK] to buy milk”，BERT可以利用[MASK]前后的单词推断出此处应该是“store”。这种双向调节是一个全新的概念，赋予了BERT之前模型所缺乏的深度双向上下文理解能力。

重要性

BERT展示了在大规模文本语料库上进行预训练，然后针对特定任务进行微调的强大力量。BERT新颖的训练任务——掩码语言建模和下一句预测，促使模型学习丰富的语言表征。由于BERT可以双向查看上下文，所以它能够捕捉到细微的语境差异。例如，它可以根据周围的单词区分“river bank”（河岸）和“bank account”（银行账户）中的“bank”。BERT发布时，通过在每个任务上对预训练模型进行简单微调，就在11个自然语言处理任务（阅读理解、问答、情感分析等）上取得了最先进的成果。重要的是，BERT证明了这些上下文表征可以跨任务转移，这是一种自然语言处理中的迁移学习。这在自然语言处理领域是一个重大转变：不再需要为每个任务从头开始训练模型，而是可以预训练一个大型通用模型，然后进行适配。

影响

BERT给行业内的自然语言处理应用带来了变革。几乎在一夜之间，从业者们就开始将BERT（及其变体）用于搜索引擎、聊天机器人、文本分类等领域，因为它可以用相对较少的数据进行微调，就能实现高精度。它还推广了“语言模型即服务”的理念，像谷歌这样的公司将BERT集成到产品中（谷歌搜索利用BERT更好地理解查询内容）。在研究方面，BERT催生了一系列基于Transformer的语言理解模型（如ERNIE、RoBERTa、ALBERT等），这些模型探索了不同的预训练调整方法。它还凸显了模型规模和数据的重要性，BERT-large（3.4亿参数）的表现明显优于BERT-base（1.1亿参数），这暗示了未来模型规模扩展的趋势。

关联

BERT采用了Transformer的编码器（来自第一篇论文），并将其应用于无监督预训练。它受到早期上下文嵌入方法（如ELMo）的启发，但BERT的Transformer架构使其功能更强大。后来的模型，如GPT-2和GPT-3，则采用了相反的方法（使用Transformer解码器进行生成式建模）。值得注意的是，下一篇论文（关于GPT-3）展示了将Transformer扩展到极致会产生什么效果，但GPT-3没有采用BERT的双向训练方式。此外，BERT在微调方面的成功，为像Flan（第8篇论文）这样的指令调整方法铺平了道路 —— 为什么不在各种各样的任务上进行微调，从而打造一个能够遵循任何指令的模型呢？

3.《Language Models are Few-Shot Learners》（2020年）—— GPT-3与规模的力量

2020年，Brown等人推出了GPT-3，这是一个拥有1750亿参数的Transformer模型。它通过扩大模型规模和在海量数据上进行训练，展现出了一些涌现能力。该论文展示了一个惊人的现象：GPT-3可以执行它从未经过专门训练的任务，只需给出几个示例（少样本学习）。例如，如果你给GPT-3一个包含几个翻译句子（英语 - 法语）的提示，它就可以翻译新的英语句子为法语，尽管它从未专门针对翻译进行训练。这种“从上下文学习”而不是通过更新权重学习的能力是一个重大发现。

关键概念：上下文学习

GPT-3表明，一个足够大的语言模型可以仅从文本输入中学习新任务。提示有效地引导模型遵循某种模式。论文对零样本、一样本和少样本设置进行了分类：GPT-3在某些任务上即使没有示例（仅有指令）也能表现出色，但在提示中加入少量示例通常会显著提高性能。这证明了在一定规模下，语言模型开始以非平凡的方式进行泛化。GPT-3在许多基准测试中，无需任何微调就达到了当时最先进或接近最先进的水平。例如，通过单独使用提示，它在一系列问答、翻译和常识测试中接近最先进水平。在当时，这是令人震惊的，这表明大规模的“普通”语言建模编码了一种广泛的智能或知识。

重要性

GPT-3的结果强调了模型规模和数据的重要性。论文作者甚至指出“实证收益可能非常显著”，例如，拥有1750亿参数的少样本GPT-3在复杂任务上超过了经过微调的13亿参数模型。这促使研究界重新思考一个训练来“预测下一个单词”的单一模型的能力极限。它还使人工智能的使用门槛大大降低：如果你可以通过用通俗易懂的语言编写提示让模型完成任务，这就降低了非专家使用人工智能的门槛。在行业中，GPT-3引发了一波基于API的人工智能服务浪潮（如OpenAI的API等），开发者通过提供提示来完成从文本摘要到代码编写等各种任务。这不仅仅关乎性能，它还展示了模型的多功能性。一个GPT-3模型可以较好地处理数十种任务（编写代码、回答常识问题、进行算术运算等）（论文链接：[2005.14165] Language Models are Few-Shot Learners），这对于构建通用人工智能助手非常有吸引力。

影响

在公众眼中，GPT-3的发布通常被视为当前大语言模型时代的开端。它在文案撰写（人工智能写作助手）、代码生成、聊天机器人等领域得到应用，从本质上开启了将大型预训练语言模型用作通用人工智能的趋势。它也提高了人们对大型语言模型问题的认识，比如编造事实（“幻觉”）和偏差问题，因为GPT-3有时会生成流畅但不正确或带有偏差的输出，这促使研究人员致力于模型对齐的研究（第7篇论文）。重要的是，GPT-3从实证上验证了2020年Kaplan等人另一篇有影响力的关于缩放定律的论文的预测（见下文第4篇论文）：更大的模型 + 更多的数据 == 可预测的损失降低和能力提升。事实上，GPT-3的少样本学习能力可以看作是模型规模带来的一种涌现属性。

关联

GPT-3本质上是一个非常大的Transformer解码器，从概念上讲，它就像放大100倍的GPT-2。它没有使用BERT的双向性，也没有对下游任务进行任何显式的微调，但通过提示，它在许多基准测试中与BERT等模型表现相当。这促使研究人员思考：在不同规模下，模型还会出现哪些其他“涌现”能力呢？它直接启发了关于缩放定律的研究（它自身也受益于这些研究），并引发了对提示工程的研究（如何最好地从这些巨型模型中获取知识）。GPT-3还推动了下一阶段的研究：如何使这样一个通用模型与人类意图保持一致（因为它能做很多事情，那么我们如何让它做我们想要的事情呢？）。第7篇论文《InstructGPT with human feedback》等就致力于解决这一模型对齐挑战。

4.《Scaling Laws for Neural Language Models》（2020年）—— 模型变大的科学

几乎在GPT-3推出的同一时期，Kaplan等人（OpenAI）发表了《Scaling Laws for Neural Language Models》这篇有影响力的论文。该论文系统地研究了随着模型规模（参数数量）、数据集规模（令牌数量）和计算能力这三个因素的增加，模型性能是如何提升的。他们发现，随着这些因素的增加，测试损失遵循可预测的幂律改进，在对数对数图上基本上呈现为一条直线。也许最重要的是，他们发现更大的模型在数据利用上效率更高：如果你的计算预算固定，那么训练一个更大的模型但减少训练步数，要比训练一个较小的模型直至收敛更好。换句话说，在计算资源的使用上，最好是选择更大的模型，甚至无需训练到最小损失，这在当时是一个有趣且违反直觉的结果。

关键发现

他们推导出了经验缩放定律，例如：对于模型规模 $N$，损失与 $N^{-\alpha}$ 成正比，其中 $\alpha\approx0.076$ ，对于数据和计算也有类似的指数关系。这些定律在7个数量级的范围内（从非常小的模型到15亿参数的模型）都成立。论文还提出了“最优前沿”的概念：在给定固定计算资源的情况下，模型规模与训练令牌数量之间存在一个最优的权衡。如果你的模型太小，就会未充分利用计算资源（很快就会收敛）；如果模型太大，就没有足够的数据来训练它（导致训练不足）。这个最佳平衡点可以用一个关联 $N$（模型）和 $D$（数据）的公式来描述。这些见解直接为后来模型的设计提供了指导。事实上，2022年DeepMind的Chinchilla模型就是基于这些缩放定律构建的，他们意识到GPT-3离最优前沿还很远（就其规模而言，训练令牌太少），所以他们打造了一个700亿参数的模型，并使用了4倍的数据，结果该模型的表现优于1750亿参数的模型。这本质上就是Kaplan缩放定律原则的应用。

重要性

在这项研究之前，选择模型规模或训练时长在一定程度上靠的是经验和猜测。这篇关于缩放定律的论文使这些选择变得科学。它表明，如果我们不断增加计算资源，就会不断看到性能提升，这对于投资更大模型的人来说是一个令人安心的信号。它也暗示了模型的涌现能力：虽然这篇论文本身主要关注困惑度/损失，但正如我们所见，GPT-3的论文证实了像少样本学习这样的能力会在特定模型规模下涌现。Kaplan等人曾著名地写道，即使在他们测试的最大规模下，“仍没有收益递减的迹象”。这为研究界（和科技公司）提供了一种蓝图：要获得更好的语言模型，就把它们做得更大，并给它们提供更多的数据，而且你还可以预测它们会提升多少性能。这影响了训练大规模模型的预算决策。这也是为什么在之后的几年里，我们看到了1750亿参数（GPT-3）、530亿参数（PaLM），然后是数万亿参数的稀疏模型，形成了一场模型规模竞赛。

影响

直接的影响是研究人员在模型设计方法上的转变。他们不再仅仅关注架构调整，而是重新聚焦于扩大模型规模（并且有信心这样做会有效果）。它还引入了计算最优训练的理念。例如，许多在GPT-3之后出现的现有模型被发现训练不足，通过重新分配计算资源，为稍小一点的模型使用更多的数据，就可以获得更好的结果（就像Chinchilla模型那样）。在行业中，这种理解有助于确定在计算集群和大型数据集上的投资优先级。这篇论文中的图表基本上可以预测，如果你将数据或参数增加10倍，模型可能会达到什么样的性能水平，这对于研发路线图非常有用。最后，这些缩放定律不仅在经验上很实用，它们还激发了科学探究：为什么会存在这些幂律趋势呢？它们能告诉我们关于这些模型本质的哪些信息呢？这些问题仍在探索中（有后续研究试图从理论上解释这些缩放定律）。

关联

这篇论文为GPT-3（第3篇论文）的成功提供了理论基础。它被引用在GPT-3的论文中，并用于选择GPT-3的模型规模。后来，它指导了LLaMA（第5篇论文）和其他模型找到合适的模型规模和数据平衡。它也与后续论文相辅相成：虽然缩放定律告诉我们越大越好，但LLaMA（第5篇论文）表明，通过合理缩放数据，较小的开源模型可以与较大的闭源模型相媲美，而Flan（第8篇论文）则表明，通过微调扩展任务的多样性也可以提升模型性能。从本质上讲，缩放定律为一个时代奠定了基础，在这个时代，扩大规模（无论是模型规模、数据规模还是任务规模）成为推动进步的主要手段。

5. 《LLaMA：开放且高效的基础语言模型》（2023年）——小身材，大能量的模型

到2023年初，研究界面临一个矛盾：最好的模型规模巨大（拥有数千亿参数，如GPT-3、PaLM），但并非每个人都有能力训练甚至运行这样的模型。Meta AI的图夫龙等人撰写的《LLaMA》论文表明，通过巧妙的训练，小得多的模型也可以与一些巨型模型表现相当，甚至更优。LLaMA模型（分别有70亿、130亿、330亿、650亿参数）在数万亿公开可用的数据令牌上进行训练，值得注意的是，130亿参数的模型在大多数基准测试中表现优于1750亿参数的GPT-3（论文链接：[2302.13971] LLaMA: Open and Efficient Foundation Language Models）。最大的650亿参数的LLaMA与DeepMind的Chinchilla（700亿参数）和谷歌的PaLM（5400亿参数）具有竞争力，而后两者的规模要大一个数量级。

关键理念

LLaMA并没有引入新的架构，它和其他模型一样是基于Transformer架构。其新颖之处在于训练策略和数据。它利用了缩放定律的见解（第4篇论文），采用了更高的数据与参数比。事实上，LLaMA-65B在1.4万亿个令牌上进行训练，每个参数对应的文本量远远超过GPT-3。这遵循了计算最优范式：与其在这些数据上训练一个1750亿参数的模型，不如训练一个650亿参数的模型更长时间。这种对训练数据的高效利用使得LLaMA的较小模型在其规模下表现得非常强大。另一个方面是Meta发布了这些模型（或者至少向研究人员提供了这些模型），这对于这个一直被封闭API主导的领域来说，是开放科学的一大步。从技术上讲，LLaMA包含了一些训练优化（如某些架构选择、模型缩放技术等），但其关键在于，通过精心设计和充足的数据，一个中等规模的模型能达到怎样的高度。

重要性

LLaMA本质上让高性能的大语言模型变得更加普及。在LLaMA之前，如果你想要使用最好的模型，就必须依赖OpenAI的API或谷歌的模型，而这些都是不开放的。LLaMA展示了一种仅使用公开数据（无需专有语料库）构建顶级模型的方法。这意味着没有谷歌那样资源的机构也有可能训练出有竞争力的模型。事实上，在LLaMA发布之后，我们看到了一系列为各种目的进行微调的衍生模型（如Alpaca、Vicuna等），因为研究人员可以从LLaMA的权重开始进行研究。从研究的角度来看，LLaMA的结果强化了这样一个观点：基于缩放定律的合理缩放比单纯的参数数量更重要。它还强调了混合不同数据源（他们使用了代码、维基百科、书籍、网页等）以获得广泛知识库的价值。

影响

在实践中，经过微调的LLaMA的70亿和130亿参数模型能够在单个GPU甚至高端笔记本电脑上运行，这使得在边缘设备上进行大量实验成为可能。这具有重大意义，比如可以在本地运行无需联网的个人人工智能助手，或者定制特定于公司的大语言模型，而无需巨大的GPU集群。LLaMA论文也间接验证了DeepMind的Chinchilla策略（大量数据，合适规模的模型）。LLaMA-13B击败了规模大13倍的GPT-3，这一头条新闻式的结果对“越大越好”的观点构成了压力，取而代之的是“更好才是更好”，即更好的训练数据/策略才是关键。在行业中，它为那些无法训练5000亿参数模型的机构缩小了一些性能差距；许多初创公司和实验室此后都基于LLaMA构建自己的模型，因为它是一个强大的基础，而且相对来说微调成本较低。

关联

LLaMA直接与缩放定律（第4篇论文）相关联，它本质上证明了遵循这些定律可以产生最优结果。它也为后续关于指令调整（第8篇论文）和工具使用（第9篇论文）的论文奠定了基础，因为一旦有了一个开源的优秀基础模型，就可以公开地应用这些技术。从某种意义上说，LLaMA以开放的方式接过了GPT-3留下的接力棒：它提供了一个基础模型，其他人可以对其进行调整（例如，通过像FLAN那样的指令微调或像InstructGPT那样的强化学习从人类反馈中学习）。事实上，将LLaMA与指令调整和强化学习从人类反馈中学习相结合，已经产生了与专有模型相媲美的开源聊天机器人。所以LLaMA是新兴的开源大语言模型生态系统的基石，连接了学术见解和实际应用。

6. 《思维链提示在大语言模型中引发推理》（2022年）——逐步推理

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

大语言模型面临的一个重大挑战是复杂推理，比如多步骤的数学问题或逻辑推理。Wei等人撰写的《思维链提示》这篇论文指出，对于规模足够大的模型而言，仅仅调整提示格式就能显著提升其推理能力。这个想法简单却十分有效：不再直接让模型给出答案，而是促使它在给出最终答案前，生成一个逐步推导的解释（即 “思维链” ）。通过清晰地写出中间推理步骤，模型在数学应用题、常识推理和逻辑谜题等任务上的准确率大幅提高。从本质上讲，这篇论文教会了模型 “把思考过程说出来” 。

引入的内容

少样本思维链（CoT）提示。例如，要解答 “如果有5个苹果，你吃了2个，还剩下几个？” 这个问题，标准的提示可能是：“问题：…… 答案：” 。而思维链提示则会包含一个带有推理过程的示例：“问题：…… 答案：让我们一步一步来思考。我原本有5个苹果，吃了2个，所以5 - 2 = 3。答案是3。” 然后，在面对实际问题时，模型就会遵循这个模式（思维链提示 | 提示工程指南）。论文作者发现，对于参数在1000亿左右及以上的模型，提供这些推理示例能显著提升性能（较小规模的模型受益相对较少 —— 这一点很重要，说明推理能力似乎要在一定规模下才会 “涌现” ）。通过使用包含8个示例的思维链提示，一个拥有5400亿参数的模型（谷歌的PaLM）在当时实现了数学应用题（GSM8K）求解的最先进水平，甚至超越了经过专门微调的模型。这是在不更新任何参数的情况下，仅仅通过提示就实现的推理能力的巨大飞跃。

重要意义

这篇论文揭示了一种挖掘大语言模型潜在推理能力的巧妙方法。这表明，模型能够进行多步骤推理，但在一次性给出答案的模式下，它们往往不会这样做，因为它们试图快速给出答案。而仅仅是告诉模型 “展示你的推理过程” ，就能得到更好的结果。这对于像算术运算这样大语言模型通常比较薄弱的任务（因为它们本质上不是计算器）来说意义重大。它还开辟了一条新的研究方向，专注于提示工程，甚至催生出将思维链融入其中的新训练方法。例如，后续诸如 “自一致性解码” 等研究工作，就是在思维链提示的基础上，通过对多个推理路径进行采样，进一步提高准确率。思维链提示还具有直观的吸引力 —— 这正是我们解决问题的方式（逐步思考），所以它让人与人工智能的交互更具可解释性。人们实际上可以看到模型的推理过程，进而有可能发现其推理错误之处。

影响

在实际应用中，思维链提示开始被用于像ChatGPT这类系统的高级提示设计中。如今，如果你向ChatGPT提出一个复杂问题，它通常会在内部使用思维链（实际上，用户社区发现，告诉它诸如 “让我们一步一步思考” 这样的指令，往往能提升它的回答质量 —— 这正是这篇论文观点的直接体现）。在研究领域，思维链提示已成为评估模型推理能力的标准基线。它还影响了微调方法：比如，现在模型有时会使用思维链示例进行训练，以便学习如何给出这类解释。另一个影响体现在评估方面 —— 思维链提示表明，除非采用正确的提示方式，否则模型的真实能力可能会被掩盖。这让人们明白，向模型提问的方式至关重要，其重要性不亚于模型本身。

关联

这项技术与GPT-3或PaLM等大型模型搭配使用效果尤其显著（在较小规模的模型上效果欠佳，这再次凸显了模型规模的作用）。它与GPT-3（第3篇论文）相关联，因为GPT-3暗示了涌现式少样本学习的存在；思维链提示是一种基于提示的特定方法，它解锁了其中一种涌现技能（推理）。InstructGPT（第7篇论文）和Flan（第8篇论文）也与之相关：它们都利用人类反馈或微调来训练模型，实际上，在指令微调中融入思维链数据（如Flan Collection所做的那样）会带来更好的效果。思维链提示现在常常与这些方法结合使用 —— 例如，经过指令微调的模型可能更愿意也更有能力给出推理步骤。这很好地说明了提示策略和模型训练是如何共同发展，以提升大语言模型性能的。

7. 《利用人类反馈训练语言模型遵循指令》（2022年）——让模型与我们的期望保持一致（InstructGPT）

Training language models to follow instructions with human feedback

到2022年，很明显大语言模型能做出令人惊叹的成果，但它们也可能偏离正轨，比如给出不相关的答案、生成有害的语言，或者根本无法很好地遵循用户指令。OpenAI的《InstructGPT》论文（Ouyang等人撰写）通过使用人类反馈强化学习（RLHF）方法，对GPT-3进行微调，使其成为一个能更好遵循指令、更有用且更安全的模型。这也是后来用于训练ChatGPT的技术。该论文指出，在各种提示下，人类更倾向于只有13亿参数的InstructGPT模型，而非最初拥有1750亿参数的GPT-3，这一显著结果充分说明了模型校准和微调的重要性。

关键概念

训练过程分为三个步骤：（1）监督微调（SFT）—— 选取一个预训练模型，在由人类编写的提示和理想回复组成的数据集上进行微调。（2）训练奖励模型 —— 让人类对各种提示下模型的不同输出进行排序，然后训练一个模型来预测这些偏好排序。（3）强化学习（具体是近端策略优化算法PPO）—— 进一步微调模型，以最大化奖励模型的得分，理想情况下，这能使模型生成人类评分较高的输出。简而言之，就是 “将人类偏好输入模型” 。最终得到的模型知道如何遵循指令（得益于步骤1），且不会做出人类不喜欢的输出（通过步骤3的优化实现）。例如，如果提示是 “总结这篇文章” ，GPT-3可能会漫无边际地阐述或包含不必要的细节，而InstructGPT则更有可能给出简洁、直接的总结，因为人类评估者更青睐这种方式。

重要性

这是首次大规模展示使语言模型与人类价值观和意图保持一致的研究之一。它解决了一个关键问题：像GPT-3这样的大型模型生成的输出，虽然在技术层面流畅，但往往并非用户想要的（甚至可能不安全）。通过利用人类反馈进行训练，模型的可用性大幅提升：标注人员明显更倾向于InstructGPT的输出，而非GPT-3的。重要的是，InstructGPT比GPT-3产生幻觉的情况更少，也更不易生成有害内容。这表明，要获得更好的模型表现，不一定非要扩大模型规模，而是要教会模型什么是期望的行为。从本质上讲，这使模型的目标（在预训练阶段是 “预测下一个单词” ）与人类用户的目标（“有用且正确” ）达成了一致。从研究角度来看，这是自然语言处理领域大规模成功应用人类反馈强化学习的案例，此前该方法在机器人或游戏领域更为常见。它还为未来的模型校准工作提供了模板。

影响

2022年初，经过人类反馈强化学习微调的InstructGPT（13亿、60亿和1750亿参数版本）成为OpenAI API的默认新模型。这意味着，无数基于该API构建的应用程序和产品，能立即获得更友好的用户回复。它直接推动了ChatGPT的开发，ChatGPT本质上就是以对话形式训练的InstructGPT。“有用性、真实性、无害性” 作为语言模型的明确目标，在很大程度上因这项研究而受到关注。其他机构也采用了类似的人类反馈循环（例如，Anthropic的Claude使用了类似的人类反馈强化学习方法）。在研究方面，这篇论文促使人们开展更多工作，以探究人类反馈强化学习的局限性，并寻找替代方法或改进措施（比如训练可扩展的偏好模型，解决 “校准代价” 问题，即校准后的模型在学术任务上的表现可能会略有下降等）。但归根结底，它证明了我们可以用相对较少的数据（数万次比较，与预训练数据相比微不足道）显著塑造模型的行为，这在数据效率和安全性方面是一大进步。

关联

这种方法与早期论文相关：它以一个基础模型（类似于第3篇论文中的GPT-3）为起点，并非通过增加数据或参数来改进，而是进行有针对性的微调。它与思维链的概念（第6篇论文）相辅相成 —— 实际上，可以通过指示模型逐步推理将二者结合起来（许多后来经过校准的模型在被要求时都会进行思维链推理）。它还与Flan Collection（第8篇论文）相关，因为二者都涉及指令微调，但人类反馈强化学习使用的是人类生成的数据，而非一系列学术任务。在实际应用中，许多现代大语言模型训练流程会同时采用这两种方法：首先在书面示例上进行有监督的指令微调（如Flan或其他方法），然后进行人类反馈强化学习以实现更精细的校准。Toolformer（第9篇论文）可以看作是另一种提升模型实用性的方式 —— 通过扩展其能力，而InstructGPT则使模型行为更符合用户需求。总之，这些进展（思维链、人类反馈强化学习等）都有助于实现人工智能既强大又符合人类目标的最终愿景。

8. 《Flan集合：有效指令微调的数据与方法设计》（2022年）——大规模指令微调

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

在人们探索人类反馈强化学习的同一时期，另一种使模型符合用户期望的方法是，在各种各样的任务上进行有监督的指令微调。《Flan集合》论文（Longpre等人撰写，谷歌团队）整合了大量自然语言处理任务和方法，对模型进行微调，使其能够在众多基准测试中直接遵循指令。可以将其理解为，通过在数千个以指令形式表述的示例任务上进行训练，“植入” 模型遵循指令的能力。最终得到了像Flan-T5和Flan-PaLM这样的模型，与基础模型相比，它们在未见任务上的零样本和少样本性能显著提升。在某些情况下，Flan-T5（110亿参数）在特定基准测试中的表现甚至超过了规模大得多的GPT-3（1750亿参数）。

关键概念

指令微调 —— 收集一系列任务（翻译、情感分析、闭卷问答、常识推理等），将每个示例转换为自然语言指令格式（例如，“将这句话翻译成法语：……” 或 “这条评论是正面的还是负面的？……” ），然后在这个任务集合上对模型进行微调。Flan集合规模 “庞大”：它整合了来自多个来源的数据（包括之前的多任务集合，如T0、Super-Natural Instructions，并加入了他们自己的数据），总计超过1800个任务。它还在训练过程中对包含思维链解释、少样本示例和其他提示变体的提示进行了实验。通过在这些混合任务上对类似PaLM的模型进行微调（得到Flan-PaLM），他们获得了一个能够更好处理新指令的模型，且无需人类反馈或奖励模型。例如，Flan-PaLM在基准评估任务中表现出色，甚至在实际场景中更能直接遵循人类提示（这也是谷歌在其API中采用Flan-T5和Flan-PaLM的原因）。

重要性

Flan证明了让模型接触多种不同指令能够实现 “任务泛化” 。这就好比让一个学生学习数百门学科，在测试时，即使问题来自一门新学科，学生也能利用相关知识和遵循指令的通用技能来应对。一个引人注目的发现是：经过指令微调的模型不仅在零样本任务中表现出色，而且往往比未经过指令微调、规模大得多的模型表现更优。例如，Flan-T5-XXL（110亿参数）在某些基准测试中超过了1750亿参数的模型。这在效率提升方面意义重大。它再次证实，训练方式可能比模型规模更为重要（这与LLaMA的理念相呼应）。此外，Flan集合的对比实验揭示了其混合数据中哪些部分最有价值 —— 有趣的是，在微调数据中加入思维链示例，能在需要推理的任务上带来显著提升。这通过微调将思维链能力进行了硬编码，很好地补充了思维链提示的概念（第6篇论文）。

影响

许多后续模型都采用了类似Flan的指令微调方法。例如，OpenAI的text-davinci模型（instruct系列）可以看作是在进行类似的操作，Meta的新型LLaMA-2聊天模型也进行了指令微调（使用人类生成的对话数据）。2022年关于Flan的这篇论文，巩固了提示格式微调作为标准实践的地位 —— 现在，在进行任何人类反馈强化学习之前，先选取一个预训练语言模型，在精心策划的指令数据集（可能包括Flan数据或其他数据）上进行微调，已经是常见做法。这通常能使模型在遵循通用指令方面表现出色，从而减少对人类反馈强化学习的需求。在研究方面，Flan集合是一个公开资源，其中包含许多任务和提示，可供其他人用于自己的微调实验（它是开源的）。它还为数据混合提供了见解：例如，他们发现并非所有任务类型都具有同等价值，某些混合数据（如大量简单的问答对）对特定评估至关重要，而其他类型（对话、程序合成任务）的作用则有所不同。这些见解为我们今后构建具有广泛覆盖性的训练集提供了指导。

关联

Flan就像是InstructGPT的人类反馈强化学习方法的 “监督学习版本” 。二者都旨在使模型遵循指令，但Flan通过精心策划的任务来实现，且无需人类排序。有趣的是，OpenAI关于InstructGPT的博客甚至指出，他们校准后的模型在用户提示方面的表现优于Flan和T0，这意味着真实用户数据（结合人类反馈强化学习）仍具有优势。不过，Flan和人类反馈强化学习是相辅相成的：在实际应用中，可以先进行类似Flan的多任务微调，再进行人类反馈强化学习。此外，Flan集合中包含的思维链数据将其与第6篇论文（思维链提示）联系起来 —— 可以将其视为自动化实现Wei等人手动进行的提示操作。最后，Flan-PaLM相较于规模大得多的模型的出色表现，再次呼应了LLaMA（第5篇论文）和Chinchilla的观点：巧妙的训练能够超越单纯的规模优势。总的来说，在Transformer（第1篇论文）实现规模扩展（第3、4篇论文），并经过部分校准（第7、8篇论文）之后，下一个前沿方向是扩展其能力，这就引出了关于工具使用的论文（第9篇论文）。

9. Toolformer：语言模型可以自学使用工具（2023年）——通过API扩展大语言模型能力

[
Toolformer: Language Models Can Teach Themselves to Use Tools](https://arxiv.org/pdf/2302.04761)
尽管取得了这些进展，大语言模型在某些方面仍然存在局限：它们不太擅长算术运算，无法浏览网页获取最新信息等等，因为它们只能处理在训练过程中内化的文本内容。Meta的Schick等人提出的Toolformer，给出了一个极具吸引力的解决方案：通过在模型生成的文本中插入API调用，教会语言模型使用外部工具（如计算器、搜索引擎、翻译系统等）。关键在于，这个过程是以自监督的方式完成的，无需人工标注在何处使用工具（参考Vinija’s Notes • Models • Toolformer）。Toolformer本质上是用代表工具使用的特殊标记来扩充模型的输出，使其能够获取结果并将其融入文本生成中。例如，当被问到 “423 * 37是多少？” 时，模型可以在内部调用计算器API并插入计算结果。

工作原理

他们选取了一个预训练的GPT-J（67亿参数），并利用它在文本中生成可能的工具使用标注。简单来说，在训练数据中，他们会用 “[Calculator(400/1400)→” 这样的提示激发模型，看它是否能正确预测出结果 “0.29]” 。通过对这些伪调用进行采样，然后根据使用工具是否真的改进了语言模型的预测来筛选，他们创建了一个扩充数据集，其中的文本包含API调用占位符。然后，他们在这个扩充数据上对模型进行微调。最终得到的模型在推理时，能够在认为工具可能有用的情况下，决定调用工具（通过一个特殊的标记序列）。Toolformer集成了多种工具，如问答系统（用于事实查找）、计算器、维基百科搜索、翻译API等。结果显示，Toolformer模型确实学会了恰当地使用这些工具。例如，它会在遇到数学表达式时使用计算器，在被问到一些冷僻问题时调用维基百科搜索API，这使得它在知识和算术基准测试中的准确率超越了基础模型单独所能达到的水平。

重要意义

这篇论文为克服大语言模型的固有局限提供了一个蓝图，方法是将其与外部系统相连接。与其试图让模型在内部掌握所有技能（这可能是不可能的，或者在数据利用上效率很低，比如记住整个互联网内容或精通长除法），Toolformer教会模型何时以及如何借助工具。这是符号工具与神经网络模型的巧妙结合：模型仍然是一个流畅的文本生成器，但它知道自己的不足，并能通过调用工具来弥补（就像一个精明的人在需要时使用计算器或搜索引擎一样）。重要的是，这种自监督方法是可扩展的——无需大量人力来标注工具的使用位置，模型或多或少可以自己弄清楚。这对于添加新工具或扩展到使用多种工具来说至关重要。它也符合我们对人工智能助手功能的期望——例如，一个优秀的助手应该说 “让我帮您查一下”，进行网络搜索，然后继续回答。Toolformer朝着在单个模型中实现这种行为迈出了一步。

影响

Toolformer是一项较新的成果，但它的理念已经在广泛传播。例如，OpenAI为ChatGPT推出的插件，允许模型调用外部API（如浏览网页、计算等）——这个概念非常相似，尽管OpenAI可能使用了一些人类示例来教会他们的模型使用插件。研究界也一直在探索使用工具增强的大语言模型，有时也称为 “检索增强生成” 或 “可编程大语言模型” 。Toolformer提供了具体的证据，表明即使是一个中等规模的模型，通过使用工具也能得到提升：在某些任务上，它凭借工具的帮助，超越了GPT-3规模的模型，尽管它本身的规模要小得多。这表明，对于部署可靠的系统而言，如果模型能够访问外部知识库和计算器，可能就不需要超大型模型。这是一种更模块化、更具可解释性的方法——你可以看到API调用和结果，使推理过程更加透明（与思维链的动机类似，但这里依赖的是外部的准确性）。我们很可能会看到更多具备工具使用能力的大语言模型，无论是通过训练（如Toolformer）还是通过设计的API（如插件）来实现。

关联

Toolformer与之前的许多成果都有关联。它使用了（来自GPT风格模型的）上下文学习来采样潜在的工具使用情况，借鉴了思维链风格的推理来判断在何处使用工具可能会有帮助，并且通过为模型提供获取事实的手段，扩展了模型校准的理念（与其只是试图让模型不产生幻觉，不如给它一种核实事实的方法）。可以想象将Toolformer与指令微调相结合：一个经过指令微调、通过人类反馈强化学习校准，并且还能调用工具的模型，将是理想的助手（事实上，这基本上就是最新的带有插件的GPT-4）。从宏观的发展脉络来看，如果说Transformer提供了 “大脑”，人类反馈强化学习/思维链赋予了它更好的 “性情” 和推理过程，那么Toolformer则给了它与外界交互的 “工具”（或者至少是访问互联网的工具）。它是从独立的语言模型，转变为交互式、实用系统的最后一块拼图，这个系统可以利用其他资源，更好地满足用户需求。

本文由mdnice多平台发布

2万字长文，九篇论文读懂大语言模型的前世今生