【NLP高频面题 - Transformer篇】Transformer的位置编码是如何计算的?

重要性:★★★


NLP Github 项目:


Transformer 位置编码矩阵究竟是如何计算的呢?如下所示,Transformer 论文“Attention Is All You Need”的作者使用了正弦函数来计算位置编码:

  • $pos$ 表示该词在句子中的位置
  • $i$ 表示在输入矩阵中的位置
  • $d_{model}$ 表示嵌入维度

计算实例:对于给定的句子 I am good 为例,嵌入维度为4,计算位置编码。

  1. 根据公式计算位置编码矩阵:
  2. 计算位置编码矩阵(简化版):
  3. 继续计算位置编码矩阵:
  4. 最终的位置编码矩阵 $P$ 如图所示:

NLP 大模型高频面题汇总

NLP基础面
BERT 模型面
LLMs 微调面

本文由mdnice多平台发布


青松
1 声望2 粉丝