GPT-3:语言模型的新突破

今天我们不再局限于概念基础,而是深入到驱动现代人工智能系统的算法核心 —— 从理解强化学习的定义,迈向掌握它的实际运作原理。 |文末点击阅读原文查看网页版| 更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com


论文:Language Models are Few-Shot Learners 2005.14165

GPT-3是一款自回归语言模型,拥有1750亿个参数,比此前任何非稀疏语言模型的参数数量都多10倍。它表明,扩大语言模型的规模能显著提升任务通用的少样本学习性能,有时甚至能与先前最先进的微调方法相媲美。

模型与架构

GPT-3采用了与GPT-2相同的模型架构,包括其中描述的改进初始化、预归一化和可逆分词法,但有一点不同:在Transformer层中,我们采用了交替密集和局部带状稀疏注意力模式,类似于稀疏Transformer。我们训练了8种不同规模的模型,参数数量从1.25亿到1750亿不等,跨度达三个数量级,最后一个就是我们所说的GPT-3模型。

模型的规模、架构和学习超参数(以token为单位的批量大小和学习率)。所有模型均使用3000亿个token进行训练

这里$nparams$是可训练参数的总数,$nlayers$是总层数,$dmodel$是每个瓶颈层中的单元数量(GPT-3模型的前馈层大小始终是瓶颈层的4倍,即$dff = 4 \times dmodel$),$dhead$是每个注意力头的维度。所有模型都使用$nctx = 2048$个token的上下文窗口。

训练数据集

我们下载了一个版本的CommonCrawl,并根据与一系列高质量参考语料库的相似度进行了筛选。为防止冗余,并确保留出的验证集的完整性,以便准确衡量过拟合情况,我们在文档级别进行了模糊去重,包括数据集内部和跨数据集的去重。此外,我们将已知的高质量参考语料库添加到训练组合中,以扩充CommonCrawl并增加其多样性。我们还搜索了与本文研究的所有基准测试的开发集和测试集的重叠部分,并尝试将其删除。

遗憾的是,由于筛选过程中的一个错误,我们忽略了一些重叠部分,并且由于训练成本高昂,重新训练模型并不可行。

训练期间使用的总计算量

训练期间使用的总计算量

用于训练GPT-3的数据集

语言建模

在PTB语言建模数据集上的零样本结果

最大的GPT-3模型在PTB上取得了最先进的(SOTA)结果,困惑度为20.50,比之前的SOTA高出15个点。

在LAMBADA、HellaSwag、StoryCloze任务上的表现。

GPT-3在零样本设置下,在LAMBADA任务上获得了76%的分数,比之前的最先进水平提高了8%。

GPT-3在少样本设置下,在LAMBADA任务上的准确率达到86.4%,比之前的最先进水平提高了18%。

在HellaSwag任务中,GPT-3在单样本设置下的准确率为78.1%,在少样本设置下的准确率为79.3%,超过了经过微调的15亿参数语言模型75.4%的准确率,但仍比经过微调的多任务模型ALUM达到的总体SOTA(85.6%)低不少。

在StoryCloze任务中,GPT-3在零样本设置下的准确率为83.2%,在少样本设置($K = 70$)下的准确率为87.7%。这仍比使用基于BERT的模型进行微调后的SOTA低4.1%,但比之前的零样本结果提高了约10%。

闭卷问答

在三个开放域问答任务上的结果

GPT-3在TriviaQA任务上的表现为:零样本下准确率为64.3%,单样本下为68.0%,少样本下为71.2%,超过了经过微调的T5–11B模型。

在WebQuestions任务中,GPT-3在零样本下的准确率为14.4%,单样本下为25.3%,少样本下为41.5%,在少样本设置下接近经过微调的模型的性能。

在Natural Questions任务中,GPT-3在零样本下的准确率为14.6%,单样本下为23.0%,少样本下为29.9%,从零样本到少样本有大幅提升。

GPT-3在这三个数据集上的性能均随模型规模的增大而平稳提升。

翻译

在语言翻译任务上的结果

GPT-3的训练数据主要是英语(按词数计算占93%),但也包含7%的其他语言文本。

零样本的GPT-3表现不如近期的无监督神经机器翻译(NMT)结果,但在为每个翻译任务提供单个示例演示时,性能有所提升。

GPT-3的完整少样本设置进一步提高了性能,接近先前无监督NMT工作的平均性能。

在英语到罗马尼亚语(En-Ro)翻译任务上的表现明显比先前的无监督NMT工作差,这可能是由于分词器对英语的偏向。

在法语到英语(Fr-En)和德语到英语(De-En)的翻译任务中,少样本的GPT-3优于最佳的有监督结果,但不确定这些基准测试是否代表了当前的最先进水平。

在罗马尼亚语到英语(Ro-En)的翻译任务中,少样本的GPT-3的性能与通过无监督预训练、有监督微调以及反向翻译相结合达到的最先进水平相差在0.5 BLEU以内。

在所有语言对和设置中,模型性能随着模型容量的增加呈现出持续提升的趋势。

常识推理

GPT-3在三个常识推理任务(PIQA、ARC和OpenBookQA)上的结果

在PhysicalQA(PIQA)任务中,GPT-3在零样本下的准确率为81.0%,单样本下为80.5%,少样本下为82.8%。

GPT-3在PIQA数据集的所有评估设置中都达到了最先进水平。

在ARC任务中,GPT-3在挑战版本上的表现为:零样本下准确率为51.4%,单样本下为53.2%,少样本下为51.5%。

在简单版本上,GPT-3的表现更好(分别为68.8%、71.2%、70.1%)。

但其性能仍低于总体最先进的UnifiedQA模型。

在OpenBookQA任务中,GPT-3从零样本到少样本设置的性能有所提升,但仍未达到最先进水平。

总体而言,GPT-3在常识推理任务中的表现喜忧参半。

阅读理解

在阅读理解任务上的结果。除RACE任务的结果报告准确率外,所有分数均为F1分数

GPT-3在这些数据集上的表现差异很大,这表明它在不同的答案格式下具有不同的能力。

GPT-3在CoQA数据集上表现最佳,几乎与人类表现相当。

GPT-3在QuAC数据集上表现最差,明显低于ELMo基线,该任务需要对结构化对话行为和答案跨度选择进行建模。

在DROP数据集上,GPT-3在少样本设置下优于经过微调的BERT基线,但仍落后于人类表现和最先进的方法。

在SQuAD 2.0数据集上,GPT-3展示了强大的少样本学习能力,与零样本性能相比有显著提升,并且略优于原始论文中最佳的微调结果。

在RACE数据集(包含中学和高中英语考试中的多项选择题)上,GPT-3的表现相对较弱,仅与早期使用上下文表示的工作相当,仍比最先进水平落后45%。

SuperGLUE

GPT-3在SuperGLUE任务上与经过微调的基线模型和最先进模型的性能对比

GPT-3在COPA和ReCoRD任务的单样本和少样本设置下,达到了接近最先进的性能。

在WSC任务上,表现仍然相对较强。

在BoolQ、MultiRC和RTE任务上的表现合理,大致与经过微调的BERT-Large模型相当。

在CB任务中,GPT-3在少样本设置下有改进的迹象。

GPT-3在涉及比较两个句子或片段的任务(如WiC、释义或蕴含任务)中似乎遇到了困难。

在两个任务上,GPT-3接近由经过微调的110亿参数模型保持的最先进水平。

少样本SuperGLUE分数随着模型规模和上下文中示例数量的增加而提高。

增加上下文中的示例数量有助于提升GPT-3的性能。

GPT-3在每个任务中使用不到8个示例,就能在总体SuperGLUE分数上超过经过微调的BERT-Large模型。

自然语言推理(NLI)

GPT-3在ANLI第三轮任务中的表现

SuperGLUE包含一个名为RTE的NLI数据集,在某些设置下,GPT-3的表现仅略好于随机猜测。

在少样本设置下,GPT-3在RTE任务上的表现与单任务微调的BERT Large模型类似。

对抗性自然语言推理(ANLI)是一个具有挑战性的数据集,包含三轮(R1、R2和R3)对抗挖掘的NLI问题。

比GPT-3小的模型在ANLI上的表现接近随机猜测,即使在少样本设置下也是如此。

GPT-3在ANLI第三轮任务中有改进的迹象。

总体而言,RTE和ANLI的结果都表明,NLI对语言模型来说仍然是一项艰巨的任务,相关进展才刚刚起步。

合成与定性任务

算术

GPT-3 1750亿参数模型在基本算术任务上的结果。{2,3,4,5}D{+,-}表示2、3、4和5位数的加法或减法,2Dx表示2位数乘法,1DC表示1位数的复合运算。

从零样本到单样本再到少样本设置,结果逐渐变好,但即使是零样本也显示出显著的算术能力。

单词打乱和操作任务

GPT-3 1750亿参数模型在各种单词解乱序和单词操作任务(零样本、单样本和少样本设置)中的表现。CL表示“循环单词中的字母”,A1表示除首尾字母外的单词变位词,A2表示除首尾两个字母外的单词变位词,RI表示“在单词中随机插入”,RW表示“反转单词”。

任务性能通常随着模型规模的增大而平稳提升,使用完整的GPT-3模型时也是如此。但没有一个模型能够反转单词中的字母。

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝