ELMo:深度语境化词向量表征,开启自然语言处理新征程
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
预训练词向量表征在理想情况下,应当既能对词汇使用的复杂特征(比如句法和语义)进行建模,又能体现这些用法在不同语言语境中的变化情况(即对一词多义进行建模)。
ELMo是一种全新的深度语境化词向量表征,它能直接应对上述两大挑战,可轻松集成到现有模型中。在一系列极具挑战性的语言理解任务里,ELMo在各个考量案例中都显著提升了当前技术水平。
ELMo词向量表征与传统的词类型嵌入有所不同,每个词元所分配的表征都是整个输入句子的函数。
ELMo词向量是在具有字符卷积的两层双向语言模型(biLMs)基础上计算得出的,它是内部网络状态的线性函数。
ELMo模型主要由三个部分构成:
基于字符的词向量表征
ELMo首先会生成基于字符的词向量表征。每个单词会被拆解成一系列字符,利用卷积神经网络(CNN)为每个字符计算字符级别的嵌入向量。接着,将这些字符级别的嵌入向量组合起来,形成词级别的表征。通过使用字符级嵌入,ELMo能够处理词汇表外的单词,还能为罕见词或拼写错误的单词生成更优质的表征。
双向长短期记忆网络(Bidirectional LSTM network)
ELMo的下一个组成部分是双向长短期记忆网络。长短期记忆网络会从正向和反向两个方向处理输入的词向量表征序列。这使得模型能够捕捉每个单词与其前后单词之间的上下文依赖关系。在每一层中,LSTM单元将当前词向量表征和前一层的输出作为输入,为当前单词生成一个隐藏状态向量。最后一层LSTM的输出则用于计算最终的语境化词向量表征 。
任务特定层
ELMo的最后一个组件是任务特定层。这些层添加在双向长短期记忆网络之上,针对诸如情感分析、命名实体识别或机器翻译等特定的下游任务进行训练。任务特定层可以像用于分类的线性层那样简单,也可以是用于序列标记的更复杂神经网络。任务特定层在ELMo嵌入向量的基础上进行训练,而ELMo嵌入向量捕捉了输入文本的上下文信息。
评估
ELMo已经在各种自然语言处理(NLP)任务和数据集上进行了评估,其中包括:
- 问答任务:ELMo在斯坦福问答数据集(SQuAD)上进行了评估,并在该任务上取得了最先进的成绩。
- 情感分析:ELMo在斯坦福情感树库(SST)数据集上进行了评估,并获得了最先进的结果。
- 命名实体识别(NER):ELMo在CoNLL - 2003命名实体识别数据集上进行了评估,并取得了最先进的成果。
- 自然语言推理(NLI):ELMo在斯坦福自然语言推理(SNLI)数据集上进行了评估,并取得了最先进的结果。
- 语义角色标注(SRL):ELMo在CoNLL - 2005语义角色标注数据集上进行了评估,并取得了最先进的结果 。
除了上述数据集和任务,ELMo还在其他数据集上进行了评估,比如GLUE基准测试、多体裁自然语言推理(MNLI)数据集以及Common Crawl数据集等等。
总体而言,ELMo在广泛的自然语言处理任务中展现出了极高的有效性,在许多基准数据集上都取得了最先进的成果。
论文
Deep contextualized word representations 1802.05365
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。