Transformer XL:超越固定长度上下文的注意力语言模型


🕙发布时间:2025-02-19

近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企
公众号【柏企科技说】【柏企阅文

Transformer XL架构是原始Transformer模型在诸如机器翻译等序列到序列任务上的扩展。这两种模型的主要区别在于,Transformer XL通过在自注意力机制中引入循环结构,来处理更长的文本序列。

Transformer XL的基本构建模块与原始Transformer模型相同。它由一堆相同的编码器和解码器层组成,每一层都包含多头自注意力层和前馈层。

循环机制

在Transformer XL中,自注意力机制进行了修改,加入了循环机制,这使得模型能够处理比训练时使用的最大序列长度更长的序列。

Transformer XL中的循环机制基于一种称为“段级循环”的技术。在这种技术中,输入序列被分割成固定长度的段,每个段的隐藏状态会传递到下一个段。这使得自注意力机制能够关注输入序列的前几段内容,有效地扩展了模型的感受野。

除了段级循环机制,Transformer XL还包含许多其他用于处理更长序列的技术,包括相对位置编码、自适应输入嵌入,以及一种改进的训练过程,该过程鼓励模型学习预测序列中的未来词。

相对位置嵌入

相对位置嵌入捕捉的是一个词相对于同一段中其他词的相对位置,而不是它在整个序列中的绝对位置。这使得模型能够更好地泛化到更长的序列,并且有助于避免过度拟合输入序列中的特定位置。

自适应输入嵌入

自适应输入嵌入允许模型根据输入序列的长度动态调整嵌入矩阵的大小。这有助于减少模型的内存占用,并提高其处理更长输入序列的能力。

修改后的训练目标

论文作者提出了一种新的训练目标,称为“针对性大小写困惑度”,它鼓励模型对输入序列中罕见和难预测的词生成更准确的预测。这有助于提高模型在语言建模任务上的整体性能,特别是在包含许多罕见词或词汇表外单词的具有挑战性的数据集上。

评估

Transformer XL模型通过在给定前文语境的情况下预测序列中的下一个词,来评估其生成高质量文本的能力。评估使用的数据集如下。模型的性能通常使用困惑度来衡量,困惑度是一种评估模型预测序列中下一个词的能力的指标。Transformer XL模型在所有这些数据集上的表现均优于现有的最先进模型,证明了其在广泛的语言建模任务中的有效性:

  • WikiText-103:这是一个基于维基百科文章的大型语言建模数据集。该数据集包含超过1亿个词元,这使其成为语言建模模型的一个具有挑战性的基准。
  • Text8:这是一个较小的语言建模数据集,包含经过清理的维基百科子集。该数据集包含1亿个字符,通常用于小规模语言建模任务的基准测试。
  • enwik8:这是一个比Text8更大的数据集,包含来自维基百科的1亿个字符。它通常用于评估能够处理更长上下文的语言建模模型。
  • One Billion Word:这个数据集包含大约10亿个来自网页的单词。它是评估大规模语言建模模型的一个流行基准。
  • Penn Treebank:这是一个广泛用于评估语言建模模型的基准数据集。它包含来自报纸文章的超过400万个单词,通常用于评估语言模型在诸如句子补全和文本生成等任务上的性能。

论文

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 1901.02860

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望6 粉丝