重读一下OpenAI发布的文章 GPT


🕙发布时间:2025-02-19

近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企
公众号【柏企科技说】【柏企阅文

GPT表明,通过在多样的无标签文本语料库上对语言模型进行生成式预训练,然后在每个特定任务上进行有监督的微调,可以在自然语言理解任务上取得巨大进展。与以往的方法不同,我们在微调过程中利用了任务感知的输入转换,在对模型架构进行最小改动的同时实现了有效的迁移学习。

(左图)本文所使用的Transformer架构和训练目标。(右图)针对不同任务微调时的输入转换。我们将所有结构化输入转换为标记序列,由预训练模型进行处理,之后连接一个线性层和softmax层。

框架

训练过程分为两个阶段。第一阶段是在大规模文本语料库上学习一个高容量的语言模型。接下来是微调阶段,在这个阶段,我们使用有标签的数据使模型适应特定的判别任务。

无监督预训练

给定一个由标记组成的无监督语料库 $U = \{u_1, \ldots, u_n\}$,我们使用标准的语言建模目标来最大化以下似然:

其中 $k$ 是上下文窗口的大小,条件概率 $P$ 由参数为 $\Theta$ 的神经网络建模。

有监督微调

在对模型进行预训练之后,我们调整参数以适应有监督的目标任务。假设存在一个有标签的数据集 $C$,其中每个实例都由一系列输入标记 $x_1, \ldots, x_m$ 以及一个标签 $y$ 组成。输入通过我们的预训练模型,得到最后一个Transformer块的激活值 $h_{m}^{l}$,然后将其输入到一个新增的参数为 $W_y$ 的线性输出层中,以预测 $y$:

这使我们得到需要最大化的以下目标:

$$\mathcal{L}_{2}(\mathcal{C})=\sum_{(\mathbf{x}, y) \in \mathcal{C}} \log P(y \mid \mathbf{x})$$

我们还发现,在微调过程中将语言建模作为辅助目标有助于学习,这体现在两方面:(a)提高有监督模型的泛化能力;(b)加速收敛。具体来说,我们优化以下目标(权重为 $\lambda$):

总体而言,在微调过程中我们所需的额外参数只有 $W_y$ 以及分隔符标记的嵌入。

特定任务的输入转换

在我们的实验中,使用了多层Transformer解码器。对于像文本分类这样的任务,可以直接按照上述方法对模型进行微调。但对于诸如问答或文本蕴含等其他任务,它们有着结构化的输入,比如有序的句子对,或者文档、问题和答案组成的三元组。由于预训练模型是在连续的文本序列上进行训练的,因此将其应用于这些任务时需要进行一些修改。

  • 文本蕴含:对于蕴含任务,我们将前提 $p$ 和假设 $h$ 的标记序列连接起来,中间用一个分隔符标记($)隔开。
  • 相似性:在相似性任务中,被比较的两个句子不存在固有顺序。为了体现这一点,我们修改输入序列,使其包含两种可能的句子顺序(中间用分隔符隔开),并分别对其进行处理以生成两个序列表示 $h_{m}^{l}$,在输入到线性输出层之前将它们按元素相加。
  • 问答和常识推理:对于这些任务,我们会得到一个上下文文档 $z$、一个问题 $q$ 以及一组可能的答案 $\{a_k\}$。我们将文档上下文和问题与每个可能的答案连接起来,中间加上一个分隔符标记,得到 $[z; q; $; a_k]$。这些序列中的每一个都由模型独立处理,然后通过softmax层进行归一化,以生成对可能答案的输出分布。

实验设置

实验中使用的不同任务和数据集列表

无监督预训练

我们使用BooksCorpus数据集来训练语言模型。该数据集包含7000多本来自各种类型(包括冒险、奇幻和浪漫等)的未出版书籍。关键在于,它包含了大量连续的文本,这使得生成模型能够学习依据长距离信息进行条件判断。

模型规格

我们的模型在很大程度上遵循原始的Transformer架构。训练了一个12层、仅包含解码器的Transformer,带有掩码自注意力头(768维状态和12个注意力头)。对于位置wise前馈网络,使用了3072维的内部状态。

有监督微调结果

  • 自然语言推理任务的实验结果:将我们的模型与当前最先进的方法进行比较。5x表示5个模型的集成。所有数据集均使用准确率作为评估指标。

  • 问答和常识推理的结果:将我们的模型与当前最先进的方法进行比较。9x表示9个模型的集成。

  • 语义相似性和分类结果:将我们的模型与当前最先进的方法进行比较。此表中的所有任务评估均使用GLUE基准进行。(mc=马修斯相关系数,acc=准确率,pc=皮尔逊相关系数)

论文

Improving Language Understanding by Generative Pre-Training

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望5 粉丝