论文分享：GLM: General Language Model Pretraining

作者：京东物流朱天文

文章来源

Du, Z., Qian, Y., Liu, X., Ding, M., Qiu, J., Yang, Z., & Tang, J. (2022, May). GLM: General Language Model Pretraining with Autoregressive Blank Infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 320-335).

摘要

现有的预训练体系结构：自动编码模型（例如BERT）、自回归模型（例如GPT）和编码器-解码器模型（例如T5）预训练框架针对的主要任务：自然语言理解（NLU）、无条件生成和条件生成，没有一个预训练框架在三个主要类别的所有任务中都表现得最好。

•GLM：提出了一种基于自回归空白填充的通用语言模型（GLM）

2D位置编码和允许任意顺序预测跨度来改进空白填充预训练
通过改变空白的数量和长度，可以针对不同类型的任务对GLM进行预训练。

•最终结果：在给定相同的模型大小和数据的情况下，GLM优于BERT、T5和GPT，并在具有1.25个BERTLarge参数的单个预训练模型中实现了最佳性能，证明了其对不同下游任务的可推广性。备注： •自然语言理解：文本分类、分词、句法分析、信息抽取等•有条件生成：根据给定的条件(例如上下文、模板等)生成新的文本，（seq-seq，如翻译任务、QA）•无条件生成：从给定的文本数据中随机采样生成新的文本•自回归模型：不能让模型看到未来的词，这种方式成为Autogressive•介绍的几个问题

（1）GLM作为ChatGLM的基座模型，是怎么训练的？
（2）目前预训练结构是怎么分类的？
（3）同一个基座模型，如何针对不同的任务进行预训练？

1、介绍

一般来说，现有的预训练框架可以分为三类：自回归模型、自动编码模型和编码器-解码器模型。•自回归模型：GPT（Radford et al.，2018a），学习从左到右的语言模型。虽然它们在长文本生成中取得了成功，并且在扩展到数十亿个参数时显示出很少的学习能力（Radford et al.，2018b；Brown et al.，2020），但其固有的缺点是单向注意力机制，无法完全捕捉NLU任务中上下文词之间的依赖关系。•编码器：如BERT（Devlin等人，2019），通过去噪目标学习双向上下文编码器，如掩蔽语言模型（MLM）。编码器产生适合自然语言理解任务的上下文化表示，但不能直接应用于文本生成。•编码器-解码器模型：编码器-解码器模型对编码器采用双向关注，对解码器采用单向关注，并在它们之间进行交叉关注（Song et al.，2019；Bi等人，2020；Lewis等人，2019）。它们通常部署在条件生成任务中，如文本摘要和响应生成。T5（Raffel等人，2020）通过编码器-解码器模型统一了NLU和条件生成，但需要更多的参数来匹配基于BRET的模型（如RoBERTa（Liu等人，2019）和DeBERTa（He等人，2021））的性能。最终，这些预训练框架都不够灵活，无法在所有NLP任务中具有竞争力。然而，由于自动编码和自回归目标本质上不同，简单的统一无法完全继承这两个框架的优势。在本文中，提出了一个基于自回归空白填充的预训练框架GLM（通用语言模型）。
在这里插入图片描述

（1）按照自动编码的思想，从输入文本中随机剔除连续跨度的标记，并按照自回归预训练的思想训练模型以顺序重建跨度。（2）虽然空白填充已在T5（Raffel等人，2020）中用于文本到文本的预训练，但本文提出了两种改进，即跨度混洗和2D位置编码。受模式开发训练（PET）（Schick和Schuütze，2020a）的启发，本文将NLU任务重新表述为模仿人类语言的手工完形填空问题。与PET使用的基于BERT的模型不同，GLM可以通过自回归填空自然地处理完形填空问题的多标记答案。

2、算法原理

2.1 自回归填充

GLM是通过优化自回归空白填充目标来训练的。给定输入文本x=[x1,⋯,xn]

，多个文本跨度为s1,⋯,sm进行采样，其中每个跨度si对应于x中的一系列连续标记[si,1,⋯,si,li]。每个跨度被单个[MASK]标记替换，形成损坏的文本xcorrupt。该模型以自回归的方式从损坏的文本预测跨度中的丢失令牌，这意味着当预测跨度中丢失的令牌时，该模型可以访问损坏的文本和先前预测的跨度。为了充分捕捉不同跨度之间的相互依赖性，我们随机排列跨度的顺序，类似于排列语言模型（Yang et al.，2019）。形式上，设Zm是长度-m的索引序列[1；2；；m]的所有可能排列的集合，并且sz\<i是sz1,⋯,szi−1，我们将预训练目标定义为
在这里插入图片描述

按照从左到右的顺序在每个空白中生成标记，即生成跨度si的概率被分解为：
在这里插入图片描述

总结：前面提到过，本篇文章的核心创新点，一个是2D位置编码，一个是允许任意顺序预测跨度来改进空白填充预训练。

2.2 多任务训练

GLM屏蔽短跨度，适用于NLU任务。然而，感兴趣的是预训练一个可以处理NLU和文本生成的单一模型。然后，我们研究了一种多任务预训练设置，其中生成较长文本的第二个目标与空白填充目标联合优化。我们考虑以下两个目标：•文档级别。我们对单个跨度进行采样，其长度是从原始长度的50%-100%的均匀分布中采样的。目标是生成长文本。•句子级别。我们限制掩码跨度必须是完整的句子。对多个跨度（句子）进行采样，以覆盖15%的原始标记。这一目标针对的是seq2seq任务，其预测通常是完整的句子或段落。两个新目标的定义方式与原始目标相同，即等式1。唯一的区别是跨度的数量和跨度的长度。总结：GLM在另一个方面的展示，多任务上取得了综合性的效果。

2.3 整体的模型架构

GLM使用单个Transformer，并对架构进行了几次修改：（1）我们重新排列了层规范化和残差连接的顺序，这对大规模语言模型避免数值误差至关重要（Shoeybi et al.，2019）；（2）我们使用单个线性层来进行输出令牌预测；（3）我们用GeLU代替ReLU激活函数（Hendrycks和Gimpel，2016）。
在这里插入图片描述

补充：PART A不可以关注到PARTB，但是PARTB可以关注到PARTA。

2.4 2D位置编码

自回归空白填充任务的挑战之一是如何对位置信息进行编码。转换器依靠位置编码来注入令牌的绝对位置和相对位置。我们提出了2D位置编码来应对这一挑战。具体来说，每个令牌都使用两个位置id进行编码。第一个位置id表示损坏的文本xcorrupt中的位置。对于掩码跨度，它是相应[MASK]标记的位置。第二个位置id表示跨度内的位置。对于A部分中的标记，它们的第二个位置id为0。对于B部分中的标记，它们的范围从1到跨度的长度。通过可学习嵌入表将两个位置id投影到两个向量中，这两个嵌入表都被添加到输入令牌嵌入中。我们的编码方法确保模型在重建它们时不知道掩蔽跨度的长度。与其他型号相比，这是一个重要的区别。例如，XLNet（Yang et al.，2019）对原始位置进行编码，使其能够感知丢失令牌的数量，而SpanBERT（Joshi et al.，2020）用多个[MASK]令牌替换跨度，并保持长度不变。我们的设计适合下游任务，因为通常生成的文本的长度事先未知。总结：设计适合下游任务，因为通常生成的文本的长度事先未知。

2.5 GLM微调

通常，对于下游NLU任务，线性分类器将预训练模型产生的序列或标记的表示作为输入，并预测正确的标签。实践与生成式预训练任务不同，导致预训练和微调之间不一致。相反，我们将NLU分类任务重新表述为空白填充的生成任务，遵循PET（Schick和Schuütze，2020a）。具体来说，给定一个标记的例子(x,y)，我们通过包含单个掩码标记的模式将输入文本x转换为完形填空题c（x）。该模式是用自然语言编写的，用于表示任务的语义。例如，情绪分类任务可以公式化为“{SENTENCE}。。候选标签y∈Y也被映射到完形填空的答案，称为言语化器v（y）。在情感分类中，标签“积极”和“消极”被映射到单词“好”和“坏”。给定x预测y的条件概率为
在这里插入图片描述
其中Y是标签集。因此，句子为正或负的概率与预测空白中的“好”或“坏”成正比。然后，我们用交叉熵损失来微调GLM（见图3）。

对于文本生成任务，给定的上下文构成输入的A部分，并在末尾附加一个掩码标记。该模型自回归地生成B部分的文本。我们可以直接将预训练的GLM应用于无条件生成，也可以将其微调到下游的条件生成任务中。总结：将原始的分类器做转换，变为一种自回归生成的方式，即将原始的类别当作mask，进行自回归生成。

2.6 不同模型的讨论分析

在本节中，我们将讨论GLM与其他预训练模型之间的差异。我们主要关注的是它们如何适应下游的空白填充任务。与BERT的比较（Devlin等人，2019）。正如（Yang et al.，2019）所指出的，由于传销的独立性假设，BERT未能捕捉到掩蔽的相互依赖性。BERT的另一个缺点是它不能正确地填充多个令牌的空白。为了推断长度为l的答案的概率，BERT需要执行l个连续预测。如果长度l未知，我们可能需要枚举所有可能的长度，因为BERT需要根据长度更改[MASK]令牌的数量。与XLNet的比较（Yang et al.，2019）。GLM和XLNet都是用自回归目标进行预训练的，但它们之间有两个区别。首先，XLNet在损坏之前使用原始位置编码。在推理过程中，我们需要知道或枚举答案的长度，这与BERT问题相同。其次，XLNet使用了双流自注意机制，而不是右移，以避免Transformer中的信息泄漏。这使预训练的时间成本增加了一倍。与T5的比较（Raffel等人，2020）。T5提出了类似的空白填充目标来预训练编码器-解码器转换器。T5对编码器和解码器使用独立的位置编码，并依赖于多个标记来区分屏蔽跨度。在下游任务中，只使用一个哨兵令牌，导致模型容量浪费以及预训练和微调之间的不一致。此外，T5总是以固定的从左到右的顺序预测跨度。因此，如第3.2节和第3.3节所述，GLM在NLU和seq2seq任务中可以显著优于T5，参数和数据更少。与UniLM的比较（Dong et al.，2019）。UniLM通过在双向、单向和交叉注意力之间改变注意力掩码，在自动编码框架下结合了不同的预训练目标。然而，UniLM总是用[MASK]标记替换屏蔽跨度，这限制了它对屏蔽跨度及其上下文之间的依赖关系进行建模的能力。GLM输入前一个令牌，并自回归生成下一个令牌。在下游生成任务上对UniLM进行微调也依赖于屏蔽语言建模，这效率较低。UniLMv2（Bao et al.，2020）对生成任务采用部分自回归建模，并对NLU任务采用自动编码目标。相反，GLM将NLU和生成任务与自回归预训练相统一。总结：对比BERT，XLNet，T5，UniLM，这些模型都有自己的训练方式，但是也存在着自己的弊端。

3、实验

3.2 SuperGLUE

为了评估我们预训练的GLM模型，我们在SuperGLUE基准测试（Wang et al.，2019）上进行了实验，并报告了标准指标。SuperGLUE由8个具有挑战性的NLU任务组成。根据PET，我们将分类任务重新表述为空白填充，其中填充了人工制作的完形填空问题（Schick和Schuütze，2020b）。然后，我们对每个任务的预训练GLM模型进行微调，如第2.3节所述。完形填空问题和其他细节见附录B.1。

任务名称	描述
ReCoRD	ReCoRD 是一个完形填空式的多项选择阅读理解任务。作者从 CNN/DailyMail 中选取新闻的摘要部分作为任务的文章部分(context)。
COPA	COPA 为多项选择，给定 premise，选择合适的选项作为它的 effect or cause。它的目标是考察模型对于常识的因果推断能力。
WSC	WSC是一个指代消解的任务，与 GLUE 中的 WNLI 是同一个任务，只是更换了任务形式。它主要考察语意连续的一段文本中某对实体与代词是的指代是否一致。
RTE	RTE考察的是模型对文本蕴含的判断能力。RTE数据集是继承自GLUE的一个数据集，目前还没有模型能够超过人类的分数。文本蕴含（自然语言推断）是语言理解的一项基本能力，而文本蕴含类型的任务其实涵盖了多个维度，从逻辑推理到常识知识都会覆盖。
BoolQ	BoolQ 是一个判断是否的阅读理解任务。作者从搜索引擎的日志中筛选问句，再将问句与 Wiki page 中相应的段落对应，经过规则和人工筛选之后构建最终的数据集 [12]。尽管只需要回答是或否，但问题形式和种类多样。
WiC	WiC (word in context) 是一个词义消歧 (Word Sense Disambiguity) 任务。模型需要鉴别同一个词在两个不同句子中的含义是否相同。任务的难点在于，在两个完全不同含义的句子中，相同的词也可能有一样的含义。因此在特征处理上，除了两个句子的 interaction，还要考虑词在句子中的表征。
CB	CB则是另一项非常有难度的任务，其任务设计是针对一个语言学现象（补语的语义投射），用此来考察模型是否像人一样具有语义投射的能力。
MultiRC	MultiRC 是一个多项选择阅读理解任务。它的每个问题对应的答案是不唯一的，即存在一个或多个选项为正确答案。对于单个问题，答案可能分布在文章的不同句子中，模型需要从不同的地方验证每个答案是否正确。

为了与GLMBase和GLMLarge进行公平的比较，我们选择BERTBase和BERTLarge作为我们的基线，它们在相同的语料库上预训练了相似的时间。我们报告了标准微调的性能（即[CLS]令牌表示上的分类）。完形填空题的BERT表现。为了与GLMRoBERTa进行比较，我们选择T5、BARTLarge和RoBERTaLarge作为基线。T5在BERTLarge的参数数量上没有直接匹配，因此我们给出了T5Base（220M参数）和T5Large（770M参数）的结果。所有其他基线的大小与BERTLarge相似。总结：大模型的数据集是多样的，都可以通过挖词/句子的形式，进行填充。

3.1 预训练设置

为了与BERT（Devlinetal.，2019）进行公平的比较，我们使用BooksCorpus（Zhu et al.，2015）和英语维基百科作为我们的预训练数据。我们使用了BERT的无字幕单词片标记器，拥有30k个词汇。我们使用与BERTBase和BERTLarge相同的架构来训练GLMBase和GLMLarge，分别包含110M和340M个参数。

对于多任务预训练，我们使用空白填充目标和文档级或句子级目标的混合来训练两个Largesized模型，表示为GLMDoc和GLMSent。此外，我们通过文档级多任务预训练训练了两个较大的GLM模型，即410M（30层，隐藏大小1024和16个注意力头）和515M（30个层，隐藏尺寸1152和18个注意力头，参数表示为GLM410M和GLM515M）。

总结：同架构模拟与效果比较。对于多任务预训练，我们使用空白填充目标和文档级或句子级目标的混合来训练两个Largesized模型，表示为GLMDoc和GLMSent。此外，我们通过文档级多任务预训练训练了两个较大的GLM模型，即410M（30层，隐藏大小1024和16个注意力头）和515M（30个层，隐藏尺寸1152和18个注意力头，参数表示为GLM410M和GLM515M）。为了与SOTA模型进行比较，我们还训练了一个具有与RoBERTa（Liu et al.，2019）相同的数据、标记化和超参数的大型模型，表示为GLMRoBERTa。由于资源限制，我们只对模型进行250000步的预训练，这是RoBERTa和BART训练步骤的一半，训练的令牌数量接近T5。更多实验细节见。实验结果在SuperGLUE基准上进行测试（Wang et al.，2019），总计8个挑战性任务。
在这里插入图片描述
GLM在大多数基本或大型架构的任务中始终优于BERT。唯一的例外是WiC（词义消歧）。GLMBase平均得分4.6%。GLMLarge的得分比BERTLarge高5.0%。结果如表1所示。在相同数量的训练数据下，GLM在大多数基本或大型架构的任务中始终优于BERT。唯一的例外是WiC（词义消歧）。GLMBase平均得分4.6%。GLMLarge的得分比BERTLarge高5.0%。这清楚地表明了我们的方法在NLU任务中的优势。在RoBERTaLarge的设置中，GLMRoBERTa仍然可以实现对基线的改进，但幅度较小。具体来说，GLMRoBERTa的性能优于T5Large，但只有其一半的尺寸。BERTBase和GLMBase具备相同的架构，包含110M参数，BERTLarge和GLMLarge具备相同的架构，包含340M参数\
GLMDoc：文档级的训练GLMSent：句子级的训练GLM410M：30层、隐层维度1024，16个注意力头GLM515M：20层、隐层维度1024，18个注意力头GLMRoBERTa：与RoBERAa拥有相同的超参数。
在这里插入图片描述
FFN inner Size：深度学习模型中的前馈神经网络（Feed-Forward Network, FFN）内部隐藏层的大小Dropout 与 Attention Dropout：Attention Dropout是专门应用于注意机制中的注意力权重，即随机丢弃一部分权重，增强注意力机制的鲁棒性和泛化能力。

Warmup Steps：Warmup 阶段：在前 6000 步中，学习率从一个较低的初始值逐步增加到预设的学习率。例如，如果预设学习率是 (η

)，初始学习率是 (η0)，那么在第 ( t ) 步的学习率 (ηt) 可以表示为：

ηt=η0+6000t×(η−η0)for0≤t<6000Peak Learning Rate：学习率在训练过程中，达到的最高值。学习率的学习过程包含初始阶段，预热阶段，余弦退火（学习率按照余弦函数的形式在训练过程中周期性变化）等。WeightDecay：权重衰减，抑制模型的过拟合能力。Gradient Clipping：梯度裁剪，防止梯度爆炸问题。1.0是torch.optim中设置的最大梯度范数，如果大于1.0，则进行裁剪。

3.3 多任务预训练

然后，评估GLM在多任务环境中的性能。在一个训练批次中，以相同的机会对短跨度和长跨度（文档级别或句子级别）进行采样。我们评估了NLU、seq2seq、空白填充和零样本语言建模的多任务模型。SuperGLUE. 对于NLU任务，我们在SuperGLUE基准上评估模型。结果也如表1所示。我们观察到，在多任务预训练中，GLMDoc和GLMSent的表现略逊于GLMLarge，但仍优于BERTLarge和UniLMLarge。在多任务模型中，GLMSent平均优于GLMDoc 1.1%。将GLMDoc的参数增加到410M（1.25 BERTLarge）比GLMLarge性能更好。具有515M参数（1.5 BERTLarge）的GLM性能甚至更好。Sequence-to-Sequence. 考虑到可用的基线结果，我们使用Gigaword数据集（Rush et al.，2015）进行抽象摘要，使用SQuAD 1.1数据集（Rajpurkar et al.，2016）进行问题生成（Du et al.。，2017）作为在BookCorpus和维基百科上预训练的模型的基准。此外，我们使用CNN/DaylyMail（See et al.，2017）和XSum（Narayan et al.，2018）数据集进行抽象摘要，作为在较大语料库上预训练的模型的基准。在较大语料库上训练的模型的结果如表2所示。GLMRoBERTa可以实现与seq2seq BART模型相匹配的性能，并优于T5和UniLMv2。
在这里插入图片描述
在BookCorpus和维基百科上训练的模型的结果如表3和表4所示。我们观察到，GLMLarge可以在两个生成任务上实现与其他预训练模型的性能匹配。GLMSent的性能比GLMLarge好，而GLMDoc的性能略差。这表明文档级目标（教导模型扩展给定上下文）对条件生成（旨在从上下文中提取有用信息）的帮助较小。将GLMDoc的参数增加到410M可以在这两项任务上获得最佳性能。

在这里插入图片描述

文本填充。文本填充是预测与周围上下文一致的文本缺失跨度的任务（Zhuet al.，2019；Donahue等人，2020；Shen等人，2020）。GLM是用自回归填空目标训练的，因此可以直接解决这一任务。我们在Yahoo Answers数据集（Yang et al.，2017）上评估了GLM，并将其与空白语言模型（BLM）（Shen et al.，2020）进行了比较，后者是一种专门设计的文本填充模型。从表5中的结果来看，GLM在很大程度上优于以前的方法（1.3到3.9 BLEU），并在该数据集上实现了最先进的结果。我们注意到GLMDoc的表现略逊于GLMLarge，这与我们在seq2seq实验中的观察结果一致。语言建模。大多数语言建模数据集（如WikiText103）都是从维基百科文档构建的，我们的预训练数据集已经包含了这些文档。因此，我们在预训练数据集的一个测试集上评估语言建模的困惑，该测试集包含大约20M个令牌，表示为BookWiki。我们还在LAMBADA数据集（Paperno et al.，2016）上评估了GLM，该数据集测试了系统在文本中对长程依赖关系建模的能力。任务是预测一段话的最后一个单词。作为基线，我们使用与GLMLarge相同的数据和标记化来训练GPTLage模型（Radford等人，2018b；Brown等人，2020）。结果如图4所示。所有模型均在零样本设置下进行评估。由于GLM学习双向注意力，我们也在上下文编码为双向注意力的情况下评估GLM。在预训练过程中，如果没有生成目标，GLMLarge就无法完成语言建模任务，困惑度大于100。在相同数量的参数下，GLMDoc的性能比GPTLage差。这是意料之中的，因为GLMDoc还优化了空白填充目标。将模型的参数增加到410M（GPTLage的1.25）会使性能接近GPTLage。GLM515M（GPtlage的1.5）可以进一步优于GPTLage，在参数相同的情况下，对上下文进行双向关注编码可以提高语言建模的性能。在此设置下，GLM410M的性能优于GPTLage。这是GLM相对于单向GPT的优势。我们还研究了二维位置编码对长文本生成的贡献。我们发现，去除二维位置编码会导致语言建模的准确性较低和较高的困惑。总结：在SuperGLU（自然语言理解任务）、Sequence-to-Sequence、文本填充、语言建模等，在任务训练中，给出了现有模型的效果。

3.4 消融实验

在这里插入图片描述

BERTLarge：官方的结果BERTLarge(reproduced)：GLM作者自己做了实现、包括数据与超参进行训练BERTLarge(cloze)：具有完形填空风格的BERTGLMLarge：\
-colze finetune：不使用完形填空微调\
-shuffle spans：不进行shuffle spans\
+sentinel tokens：使用sentinel\_tokens，这是用于标记或分隔文本片段的特殊令牌表6显示了我们对GLM的消融分析。首先，为了提供与BERT的apple-to-apple（两个相似物体的横向）比较，我们用我们的实现、数据和超参数训练了一个BERTLarge模型（第2行）。性能略低于官方BERTLarge，明显低于GLMLarge。这证实了GLM在NLU任务上优于掩蔽LM预训练。其次，我们展示了作为序列分类器（第5行）微调的GLM和具有完形填空风格微调的BERT（第3行）的SuperGLUE性能。与带有完形填空风格微调的BERT相比，GLM得益于自回归预训练。特别是在ReCoRD和WSC上，其中描述器由多个令牌组成，GLM始终优于BERT。这证明了GLM在处理可变长度坯料方面的优势。另一个观察结果是完形填空公式对GLM在NLU任务中的表现至关重要。对于大模型，完形填空技巧微调可以将性能提高7分。最后，我们将GLM变体与不同的预训练设计进行比较，以了解其重要性。第6行显示，去除跨度混洗（总是从左到右预测屏蔽跨度）会导致SuperGLUE的性能严重下降。第7行使用不同的sentinel令牌而不是单个[MASK]令牌来表示不同的掩码跨度。该模型的性能比标准GLM差。我们假设，学习不同的哨兵标记会浪费一些建模能力，这些标记不会在只有一个空白的下游任务中使用。在图4中，我们展示了删除2D位置编码的第二个维度会损害长文本生成的性能。我们注意到T5是用类似的空白填充目标进行预训练的。总结：GLM在三个方面有所不同：（1） GLM由单个编码器组成，（2）GLM对掩码跨度进行混洗，以及（3）GLM使用单个[MASK]而不是多个哨兵令牌。虽然由于训练数据和参数数量的差异，我们无法直接将GLM与T5进行比较，但表1和表6中的结果已经证明了GLM的优势。

3.5 相关工作

预训练语言模型。大规模语言模型的预训练显著提高了下游任务的性能。有三种类型的预训练模型。首先，自动编码模型通过去噪目标学习用于自然语言理解的双向上下文编码器（Devlin et al.，2019；Joshi et al.，2020；Yang等人，2019；刘等人，2019年；Lan等人，2020；Clark等人，2017）。其次，使用从左到右的语言建模目标来训练自回归模型（Radford等人，2018a，b；Brown等人，2020）。第三，对编码器-解码器模型进行序列到序列任务的预训练（Song et al.，2019；Lewis等人，2019；Bi等人，2020；Zhang等人，2020）。在编码器-解码器模型中，BART（Lewis et al.，2019）通过向编码器和解码器提供相同的输入，并获取解码器的最终隐藏状态来执行NLU任务。相反，T5（Raffel et al.，2020）在文本到文本框架中制定了大多数语言任务。然而，这两个模型都需要更多的参数才能优于RoBERTa等自动编码模型（Liu et al.，2019）。UniLM（Dong et al.，2019；Bao et al.，2020）在不同关注度的掩蔽语言建模目标下统一了三种预训练模型MASK。NLU作为生成。以前，预训练的语言模型在学习的表示上使用线性分类器完成NLU的分类任务。GPT-2（Radford等人，2018b）和GPT-3（Brown等人，2020）表明，生成语言模型可以通过直接预测正确答案来完成NLU任务，如问答，而无需微调、给定任务指令或几个标记的例子。然而，由于单向注意力的限制，生成模型需要更多的参数才能工作。最近，PET（Schick和Schuütze，2020a，b）提出将输入示例重新表述为完形填空题，其模式与少镜头环境中的预训练语料库相似。研究表明，与基于梯度的微调相结合，PET可以在少数镜头设置中实现比GPT-3更好的性能，同时只需要其0.1%的参数。类似地，Athiwaratkun等人（2020）和Paolini等人（2020年）将结构化预测任务（如序列标记和关系提取）转换为序列生成任务。•问题一与答案一：

问题：生成任务是不是越多参数越好，参数降低是否可以达到同样的效果？
答案：生成任务需要更多的参数才能工作。但通过梯度微调，可以实现更少的参数，达到同样的效果，但可能在少数人任务上有效。

•问题二与答案二：

问题：由于单向注意力的限制，生成模型需要更多的参数才能工作？
答案：每个位置只能访问它之前的位置的信息，而不能访问之后的位置的信息。这种限制意味着模型在每一步生成时只能基于部分上下文进行推断，而不是全局上下文。因此，模型需要更多的参数来更好地捕捉和存储序列中的信息，从而在生成过程中做出更准确的预测。

4、结论

GLM是一种用于自然语言理解和生成的通用预训练框架。我们展示了NLU任务可以公式化为条件生成任务，因此可以通过自回归模型求解。GLM将不同任务的预训练目标统一为自回归空白填充，使用混合注意力掩码和新颖的2D位置编码。经验上，我们表明，对于NLU任务，GLM优于以前的方法，并且可以有效地共享不同任务的参数。

论文分享：GLM: General Language Model Pretraining

摘要

1、介绍