重读一下OpenAI发布的文章 GPT

🕙发布时间：2025-02-19

近日热文：
1. 全网最全的神经网络数学原理（代码和公式）直观解释
 2. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路
 3. 2W8000字深度剖析25种RAG变体：全网最全~没有之一
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

GPT表明，通过在多样的无标签文本语料库上对语言模型进行生成式预训练，然后在每个特定任务上进行有监督的微调，可以在自然语言理解任务上取得巨大进展。与以往的方法不同，我们在微调过程中利用了任务感知的输入转换，在对模型架构进行最小改动的同时实现了有效的迁移学习。

（左图）本文所使用的Transformer架构和训练目标。（右图）针对不同任务微调时的输入转换。我们将所有结构化输入转换为标记序列，由预训练模型进行处理，之后连接一个线性层和softmax层。

框架

训练过程分为两个阶段。第一阶段是在大规模文本语料库上学习一个高容量的语言模型。接下来是微调阶段，在这个阶段，我们使用有标签的数据使模型适应特定的判别任务。

无监督预训练

给定一个由标记组成的无监督语料库 $U = \{u_1, \ldots, u_n\}$，我们使用标准的语言建模目标来最大化以下似然：

其中 $k$ 是上下文窗口的大小，条件概率 $P$ 由参数为 $\Theta$ 的神经网络建模。

有监督微调

在对模型进行预训练之后，我们调整参数以适应有监督的目标任务。假设存在一个有标签的数据集 $C$，其中每个实例都由一系列输入标记 $x_1, \ldots, x_m$ 以及一个标签 $y$ 组成。输入通过我们的预训练模型，得到最后一个Transformer块的激活值 $h_{m}^{l}$，然后将其输入到一个新增的参数为 $W_y$ 的线性输出层中，以预测 $y$：

这使我们得到需要最大化的以下目标：

$$\mathcal{L}_{2}(\mathcal{C})=\sum_{(\mathbf{x}, y) \in \mathcal{C}} \log P(y \mid \mathbf{x})$$

我们还发现，在微调过程中将语言建模作为辅助目标有助于学习，这体现在两方面：（a）提高有监督模型的泛化能力；（b）加速收敛。具体来说，我们优化以下目标（权重为 $\lambda$）：

总体而言，在微调过程中我们所需的额外参数只有 $W_y$ 以及分隔符标记的嵌入。

特定任务的输入转换

在我们的实验中，使用了多层Transformer解码器。对于像文本分类这样的任务，可以直接按照上述方法对模型进行微调。但对于诸如问答或文本蕴含等其他任务，它们有着结构化的输入，比如有序的句子对，或者文档、问题和答案组成的三元组。由于预训练模型是在连续的文本序列上进行训练的，因此将其应用于这些任务时需要进行一些修改。

文本蕴含：对于蕴含任务，我们将前提 $p$ 和假设 $h$ 的标记序列连接起来，中间用一个分隔符标记（$）隔开。
相似性：在相似性任务中，被比较的两个句子不存在固有顺序。为了体现这一点，我们修改输入序列，使其包含两种可能的句子顺序（中间用分隔符隔开），并分别对其进行处理以生成两个序列表示 $h_{m}^{l}$，在输入到线性输出层之前将它们按元素相加。
问答和常识推理：对于这些任务，我们会得到一个上下文文档 $z$、一个问题 $q$ 以及一组可能的答案 $\{a_k\}$。我们将文档上下文和问题与每个可能的答案连接起来，中间加上一个分隔符标记，得到 $[z; q; $; a_k]$。这些序列中的每一个都由模型独立处理，然后通过softmax层进行归一化，以生成对可能答案的输出分布。

实验设置

实验中使用的不同任务和数据集列表

无监督预训练

我们使用BooksCorpus数据集来训练语言模型。该数据集包含7000多本来自各种类型（包括冒险、奇幻和浪漫等）的未出版书籍。关键在于，它包含了大量连续的文本，这使得生成模型能够学习依据长距离信息进行条件判断。

模型规格

我们的模型在很大程度上遵循原始的Transformer架构。训练了一个12层、仅包含解码器的Transformer，带有掩码自注意力头（768维状态和12个注意力头）。对于位置wise前馈网络，使用了3072维的内部状态。

有监督微调结果

自然语言推理任务的实验结果：将我们的模型与当前最先进的方法进行比较。5x表示5个模型的集成。所有数据集均使用准确率作为评估指标。

问答和常识推理的结果：将我们的模型与当前最先进的方法进行比较。9x表示9个模型的集成。

语义相似性和分类结果：将我们的模型与当前最先进的方法进行比较。此表中的所有任务评估均使用GLUE基准进行。（mc=马修斯相关系数，acc=准确率，pc=皮尔逊相关系数）

论文

Improving Language Understanding by Generative Pre-Training

本文由mdnice多平台发布

重读一下OpenAI发布的文章 GPT