XLNet:用于语言理解的广义自回归预训练
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
在自然语言处理(NLP)的迁移学习中,自回归(AR)语言建模和自动编码(AE)是神经网络两种成功的预训练目标。自回归语言建模根据序列中前面的词来预测下一个词,但它无法处理深度双向上下文,而这对情感分析和问答等任务来说至关重要。另一方面,自动编码是从损坏的数据中重建原始数据,BERT就采用了这种方式。然而,BERT存在一些局限性,例如BERT假设在给定未掩码词的情况下,预测的词彼此独立,这过于简化了,因为在自然语言中高阶、长距离的依赖关系普遍存在。
XLNet提出了一种新的预训练语言模型的方法,它结合了自回归和自动编码目标的思路,同时避免了它们的局限性,并且可以在广泛的自然语言理解(NLU)任务中提升性能。
排列语言建模
XLNet背后的关键思想是采用基于排列的方法,使模型能够从输入词元的所有可能组合中学习,而不仅仅是一种固定的顺序。这是通过训练模型在给定输入序列中所有其他词元的情况下预测某个词元的概率来实现的,而不考虑它们的位置。这种方法被称为“排列语言建模”,它是先前模型所使用的自回归语言建模方法的扩展。
XLNet还使用了Transformer架构的改进版本,称为“Transformer-XL”,其设计目的是捕捉输入序列中的长距离依赖关系。这是通过使用段级循环机制实现的,该机制使模型在处理当前段时能够保留上一段的记忆。
评估
XLNet结合了图书语料库(BooksCorpus)、英文维基百科(English Wikipedia)、Giga5、ClueWeb 2012-B和Common Crawl进行预训练。分词是通过SentencePiece完成的。维基百科、图书语料库、Giga5、ClueWeb和Common Crawl分别获得27.8亿、10.9亿、47.5亿、43亿和199.7亿个子词片段,总计328.9亿个。
XLNet-Large使用了与BERT-Large相同的架构超参数。XLNet-Large无法利用额外的数据规模,因此使用XLNet-Base(类似于BERT-Base)与BERT进行公平比较。这也意味着预训练仅使用了图书语料库和英文维基百科。
对于像SQuAD和RACE这样涉及更长上下文的显式推理任务,XLNet的性能提升通常更大。这种在处理长上下文方面的优势可能来自于XLNet中的Transformer-XL骨干网络。
对于已经有大量监督示例的分类任务,如MNLI(超过39万个)、Yelp(超过56万个)和Amazon(超过300万个),XLNet仍然带来了显著的性能提升。
论文
[XLNet: Generalized Autoregressive Pretraining for Language Understanding 1906.08237
](https://arxiv.org/abs/1906.08237)
推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。