谷歌论文 FLAN 一种提高语言模型零样本学习能力的简单方法


🕙发布时间:2025-02-24

更多LLM架构文章:LLM架构专栏
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
4. 3W6000字了解大模型LLM:部署、优化与框架
知乎【柏企
公众号【柏企科技说】【柏企阅文

本文探索了一种提升语言模型零样本学习能力的简单方法,并表明指令调整(在通过指令描述的数据集集合上对语言模型进行微调)能显著提升模型在未见任务上的零样本性能。

一个具有1370亿参数的预训练语言模型在超过60个通过自然语言指令模板描述的自然语言处理数据集上进行指令调整。这个经过指令调整的模型名为FLAN,随后在未见的任务类型上进行评估。

指令调整、预训练-微调与提示的比较

指令微调

上图:指令调整和FLAN概述。指令调整是在以指令形式表述的混合任务上对预训练语言模型进行微调。在推理时,我们在未见的任务类型上进行评估;例如,在指令调整过程中未见过自然语言推理(NLI)任务的情况下,我们可以在自然语言推理任务上对模型进行评估。下图:零样本FLAN与零样本和少样本GPT-3在三种未见任务类型上的性能对比,在我们评估的十种任务类型中,指令调整显著提升了这三种任务的性能。自然语言推理数据集:ANLI R1 - R3、CB、RTE。阅读理解数据集:BoolQ、MultiRC、OBQA。闭卷问答数据集:ARC-easy、ARC-challenge、NQ、TriviaQA。

指令调整的目的是提升语言模型响应自然语言处理指令的能力。其核心思想是,通过监督学习教会语言模型执行由指令描述的任务,这样语言模型就能学会遵循指令,甚至在未见任务上也能如此。为了评估在未见任务上的性能,我们按任务类型将数据集分组,并在对其余所有任务簇进行指令调整时,留出每个任务簇用于评估。

任务与模板

我们汇总了62个公开可用的文本数据集,涵盖语言理解和语言生成任务,并将它们混合在一起。每个数据集被归类到12个任务簇中的一个,同一任务簇中的数据集属于相同的任务类型。

本文使用的数据集和任务簇(自然语言理解任务为蓝色;自然语言生成任务为蓝绿色)

对于每个数据集,我们手动编写了十个独特的模板,这些模板使用自然语言指令来描述该数据集的任务。虽然这十个模板中的大多数描述的是原始任务,但为了增加多样性,对于每个数据集,我们还加入了至多三个“转换任务视角”的模板。

多个描述自然语言推理任务的指令模板

评估划分

我们采用了一种更为保守的定义,利用任务簇进行划分。在本研究中,如果在指令调整期间未见过数据集D所属任务簇中的任何数据集,我们才将数据集D视为在评估时未见的数据集。例如,如果D是一个蕴含关系任务的数据集,那么在指令调整中就不会出现蕴含关系的数据集,我们会在所有其他任务簇上进行指令调整。因此,为了在c个任务簇上评估零样本FLAN,我们会训练c个模型,每个模型留出不同的任务簇用于评估。

训练细节

模型架构与预训练

在我们的实验中,使用了LaMDA-PT,这是一个具有1370亿参数、仅解码器的密集型从左到右的Transformer语言模型。该模型在一系列网页文档(包括包含计算机代码的文档)、对话数据和维基百科数据上进行预训练,这些数据使用SentencePiece分词为2.49万亿字节对(BPE)标记,词汇表大小为32000。大约10%的预训练数据是非英语的。

指令调整过程

我们的指令调整流程将所有数据集混合,并从每个数据集中随机采样。为了平衡不同数据集的大小,我们将每个数据集的训练示例数量限制为30000,并采用示例比例混合方案,混合率上限为3000。微调时使用的输入和目标序列长度分别为1024和256。

结果

我们在自然语言推理、阅读理解、闭卷问答、翻译、常识推理、共指消解和结构到文本转换等任务上对FLAN进行评估。

FLAN与LaMDA-PT 1370亿参数模型、GPT-3 1750亿参数模型和GLaM 640亿参数/64专家模型在自然语言推理、阅读理解、闭卷问答和翻译任务上的零样本性能对比。FLAN的性能是每个任务至多10个指令模板的平均值。有监督模型包括T5、BERT或翻译模型。

  • 自然语言推理(NLI):在五个自然语言推理数据集上,模型需要判断在给定前提的情况下假设是否成立,FLAN大幅超越了所有基线模型。对于FLAN,我们将自然语言推理表述为更自然的问题“这意味着……吗?”,从而实现了更高的性能。
  • 阅读理解:在阅读理解任务中,模型需要根据提供的文章回答问题,FLAN在MultiRC和OBQA任务上超越了基线模型。在BoolQ任务上,FLAN大幅超越GPT-3,尽管LaMDA-PT在BoolQ任务上已经取得了较高的性能。
  • 闭卷问答:闭卷问答要求模型在无法获取包含答案的特定信息的情况下回答关于世界的问题。在所有四个数据集上,FLAN的表现都优于GPT-3。与GLaM相比,FLAN在ARC-e和ARC-c数据集上性能更好,在NQ和TQA数据集上性能略低。
  • 翻译:与GPT-3类似,LaMDA-PT的训练数据中约90%是英语,并且包含一些其他语言的文本,但这些文本并未专门用于训练模型进行机器翻译。我们还在GPT-3论文中评估的三个数据集上评估了FLAN的机器翻译性能:来自WMT’14的法英翻译,以及来自WMT’16的德英和罗马尼亚英翻译。与GPT-3相比,FLAN在所有六项评估中都超越了零样本的GPT-3,尽管在大多数情况下,它的表现不如少样本的GPT-3。与GPT-3类似,FLAN在翻译成英语的任务上表现出色,并且与有监督的翻译基线相比也有优势。然而,从英语翻译成其他语言的表现相对较弱,考虑到FLAN使用英语SentencePiece分词器,且大部分预训练数据是英语,这是可以预料的。
  • 其他任务:尽管我们在上述任务簇中看到了不错的结果,但指令调整的一个局限性在于,它并不能提升许多语言建模任务的性能(例如,表述为句子补全的常识推理或共指消解任务)。在七个常识推理和共指消解任务中,FLAN仅在其中三个任务上超越了LaMDA-PT。这一负面结果表明,当下游任务与原始语言建模预训练目标相同时,指令调整并无用处。

翻译和结构到文本任务的结果。[k]表示少样本示例的数量。#t表示评估FLAN时使用的模板数量。

八个自然语言理解任务簇的结果。除DROP、MultiRC和SQuAD v1和v2使用F1值外,所有显示的值均为准确率(或精确匹配率)。[k]表示少样本示例的数量。t表示评估FLAN时使用的模板数量。

论文:《Fine-tuned Language Models Are Zero-Shot Learners》
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝