更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

语言模型:无监督的多任务学习

GPT-2表明,语言模型无需任何明确的监督就能开始学习各种语言处理任务。GPT-2在一个名为WebText的包含数百万网页的新数据集上进行训练。实验表明,语言模型的能力对于零样本迁移的成功至关重要,并且增加模型能力会以对数线性的方式提升各项任务的性能。

方法

学习执行单个任务可以在概率框架中表示为估计条件分布 $p(output|input)$ 。由于一个通用系统应该能够执行许多不同的任务,即使对于相同的输入,它不仅应该基于输入进行条件设定,还应该基于要执行的任务。也就是说,它应该对 $p(output|input, task)$ 进行建模。

语言提供了一种灵活的方式,将任务、输入和输出都指定为符号序列。因此,有可能训练一个单一模型来执行许多不同的任务,而无需明确的监督。

在整个WebText训练集中可以找到自然出现的英语到法语以及法语到英语翻译的示例。

初步实验证实,足够大的语言模型能够在这种类似玩具的设置中执行多任务学习,但学习速度比明确监督的方法要慢得多。

训练数据集

创建了一个新的网页抓取数据集,通过只抓取经过人工筛选的网页来强调文档质量。作为起点,抓取Reddit上所有出站链接且得分至少为3的网页。由此产生的数据集WebText包含这4500万个链接的文本子集,经过去重和一些基于启发式的清理后,包含略多于800万个文档,总共有40GB的文本。

所有维基百科文档都从WebText中删除,因为它是其他数据集的常见数据源,并且由于训练数据与测试评估任务的重叠,可能会使分析变得复杂。

输入表示

字节对编码(Byte Pair Encoding,BPE)是字符级和词级语言建模之间的一种实用折中方案,它有效地在频繁符号序列的词级输入和不频繁符号序列的字符级输入之间进行插值。

然而,由于BPE使用基于频率的贪心启发式方法来构建标记词汇表,直接将BPE应用于字节序列会导致次优的合并。

因此,对于任何字节序列,BPE被阻止跨字符类别进行合并,但空格除外。这在显著提高压缩效率的同时,仅在多个词汇标记之间增加了极少的单词碎片化。

模型

采用基于Transformer的架构,在很大程度上遵循GPT模型的细节,仅有少量修改。

层归一化被移到每个子块的输入位置,并且在最终的自注意力块之后添加了一个额外的层归一化。

使用了一种经过修改的初始化方法,该方法考虑了随着模型深度在残差路径上的累积。

在初始化时,残差层的权重会乘以一个因子 $1/\sqrt{N}$ ,其中 $N$ 是残差层的数量。

词汇表扩展到了50,257个。上下文大小也从512个标记增加到1024个,并且使用了更大的批量大小512。

实验

4种模型大小的架构超参数

最小的模型与原始GPT相当。

第二小的模型相当于BERT中最大的模型。

最大的模型比GPT的参数多一个数量级以上。

评估

语言建模

在许多数据集上的零样本结果

WebText语言模型在零样本领域迁移中表现良好,在8个数据集中的7个上改进了当前最先进的结果。

在像Penn Treebank和WikiText-2这样的小数据集上,以及像LAMBADA和Children’s Book Test这样衡量长期依赖关系的数据集上有显著改进。

该模型在One Billion Word Benchmark上的表现仍然比先前的工作差,这可能是由于该数据集规模大且经过广泛的预处理,包括去除长距离结构的句子级混洗。

Children’s Book Test

Children’s Book Test(CBT)上的性能与模型能力的关系

Children’s Book Test(CBT)旨在评估语言模型(LMs)在各种单词类别上的表现,包括命名实体、名词、动词和介词。

CBT不是使用困惑度作为评估指标,而是通过让语言模型在完形填空测试中从10个选项中预测正确的单词选择来衡量准确率。

增加模型大小会使CBT上的性能稳步提升,缩小与人类表现的差距。

数据重叠分析显示,CBT测试集中的一本书——Rudyard Kipling所著的《The Jungle Book》在WebText中,所以报告的是在没有显著重叠的验证集上的结果。

GPT-2在CBT的普通名词上达到了93.3% 的准确率,在命名实体上达到了89.1% 的准确率,取得了最先进的结果。

LAMBADA

LAMBADA数据集通过预测句子的最后一个单词来测试系统对文本中长距离依赖关系进行建模的能力。

GPT-2在这项任务上显著改进了当前最先进的结果,将困惑度从99.8降低到8.6,并将语言模型准确率从19% 提高到52.66% 。

GPT-2的大多数错误涉及预测出的是有效的句子延续,但不是有效的最后一个单词。

添加一个近似的停用词过滤器将准确率提高到63.24% ,并在这项任务上比当前最先进的结果提高了4% 。

以前最先进的模型使用受限预测设置,但这种限制对GPT-2有害,因为它19% 的答案不在上下文中。

Winograd Schema Challenge

Winograd Schema Challenge上的性能与模型能力的关系

Winograd Schema Challenge衡量系统进行常识推理和解决文本中歧义的能力。

GPT-2在该挑战中达到了70.70% 的最先进准确率,提高了7% 。

阅读理解

CoQA是一个数据集,包含来自7个不同领域的文档,以及提问者和回答者之间的自然语言对话。

它评估阅读理解能力以及模型根据对话历史回答问题的能力,包括 “为什么?” 这类问题。

当基于文档、对话历史和最后一个标记进行条件设定时,GPT-2在开发集上的F1分数达到55。

这一性能与四个基线系统中的三个相当或超过它们,即使没有使用那些基线系统所使用的12.7万多个手动收集的问答对。

基于BERT的有监督的当前最先进(SOTA)系统,F1分数达到89,接近人类表现。

对于一个无监督系统来说,GPT-2的表现令人印象深刻,但它经常依赖简单的基于检索的启发式方法,例如用文档中找到的名字回答 “谁” 的问题。

总结\

在CNN和《每日邮报》数据集上,使用ROUGE F1指标衡量的总结性能

在文章后使用 “TL;DR:” 来诱导总结行为。

使用Top-k随机采样(k = 2)生成100个标记,以减少重复并鼓励生成抽象摘要。

将生成的100个标记中的前3个句子视为摘要。

从定性上看,生成的摘要类似真实摘要,但往往关注近期内容或混淆具体细节。

当去除任务提示时,GPT-2在综合指标上的性能下降了6.4分,这表明它能够在语言模型中通过自然语言调用特定任务的行为。

翻译

GPT-2在WMT-14英语到法语测试集中达到5 BLEU,略逊于使用词典逐词替换的方法。

GPT-2在WMT-14法语到英语测试集中表现明显更好,达到11.5 BLEU。

但仍然比当前最好的无监督机器翻译方法差很多,后者达到33.5 BLEU。

令人惊讶的是,由于训练数据中故意删除了非英语网页,字节级语言检测器在WebText中仅发现了10MB的法语数据,比之前无监督机器翻译研究中典型的单语法语语料库小500倍。

问答

2019年推出的Natural Questions数据集为定量评估语言模型提供了有前景的资源。

当使用精确匹配指标进行评估时,GPT-2正确回答了4.1% 的问题,这比简单的基线要好,但仍然相对较低。

模型能力似乎是神经系统在事实类问题上表现不佳的一个重要因素。

GPT-2生成的答案概率校准良好,在它最有信心的问题上准确率达到63.1% 。

GPT-2的性能仍然比将信息检索与提取式文档问答相结合的开放域问答系统差很多,后者的准确率在30% 到50% 之间。

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝