01 什么是Attention
我们以招聘网站的简历匹配度为例,帮助你轻松理解Attention。
Attention
想必各位社畜都用过各大招聘网站投过简历,在这里把公司 HR 招聘过程比做一个注意力计算过程,HR 拿到了甲乙丙丁 4 人的简历,4 人都有自己的擅长,甲擅长 IT,乙擅长跑步,丙擅长游泳,丁擅长演讲,IT、跑步、游泳和演讲就是 key,将这些 key 在每人身上拉平,并赋予能力值,例如甲擅长 IT,乙不擅长 IT,则甲IT的能力值为 0.9,乙IT的能力值为 0.1,这些能力值就是 value。
HR 要找一个 IT 能力强的人,HR 的需求就是 query,query 与 key 求点积相似度(再除以根下 dk,mask、softmax、dropout),再与能力值 value 矩阵计算,最终就是公司得到的这 4 人的 JD 匹配值。
Multi-Head-Attention
如果公司招聘的 JD 不仅要求 IT 能力强,而且要求擅长演讲,即为 2 头 Attention。
02 Attention计算方式
注意力机制的计算方式有很多,在这里拿最常用的举例,公式如下:
$$Attention(Q,K,V)=Softmax(\frac{QT^T}{d_k})V$$
先对公式有个印象:假设 query
、key
、value
是维度相同的 3 个向量,用 query
与 key
的转置进行点积,然后除以维度 dk
,这一步可以先理解为归一化,然后进行 sofemax
激活函数,最后去乘以 value
。
下面用代码来实现这个过程:
def attention(query, key, value):
d_k = query.size(-1)
scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
return torch.matmul(p_attn, value)
如何获得 query、key、value
假设我们现在要对这句话计算注意力:I have a dream
,这句话有 4 个 token,假设每个 token 用一个 512 维度的向量表示,同时这一个批次只输入这一句话,那么 ‘I have a dream’ 可以用一个形状为 (1,4,512)的矩阵 A 来表示,注意矩阵 A,后面要用到这个矩阵,(1,4,512)这三个参数的含义分别是批次句子数量、句子长度、词嵌入维度。
那么此时如果让 query = key = value = A
,直接带入到上面的 attention
函数,进行注意力计算,由于注意力机制是我们模型的一部分,我们要训练模型,要学习注意力机制的参数,而现在 query = key = value = A 是一个固定矩阵,这肯定是不行的,那么怎么解决呢?我们让 A 并行经过 3 个线性层,得到 3 个线性变换后的矩阵,这 3 个结果分别表示 query、key、value,然后再代入到 attention 函数进行注意力计算。假设这 3 个线性层都是 512 * 512,那么变换后结果的形状都还是(1,4,512)。
03 实现多头注意力Multi-head-attention
上述 attention 函数实现的是单头注意力计算,关于多头的宏观理解,可以参考文章开头的举例,那么多头到底是怎么实现的呢?
接着上面 I have a dream
的例子,矩阵 A 并行经过 3 个线性层后,得到 query、key、value,形状都是(1,4,512),假设多头的头数为 8,那么将三者的形状从 (1,4,512)变化到(1,4,8,64),这一步是将最后一维 512,拆分成 8 64,也就是将词嵌入维度平均划分成 8 份。还有一个细节,就是将头数 8 与句子长度 4 进行一个维度调换,变换成(1,8,4,64),然后送入到前面的 attention 函数计算注意力,注意力计算结果 B 的形状为 (1,8,4,64),然后进行形状的反向操作,头数 8 和句子长度 4 调换,再将 8 64 恢复到 512,最终结果的形状还是(1,4,512),这就完成了多头注意力计算。
下面是代码实现:
def clones(module, N):
return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])
class MutiHeadedAttention(nn.Module):
def __init__(self, head, embedding_dim):
super(MutiHeadedAttention, self).__init__()
self.d_k = embedding_dim // head
self.head = head
self.linears = clones(nn.Linear(embedding_dim, embedding_dim), 4)
def forward(self, query, key, value):
batch_size = query.size(0)
query, key, value = [model(x).view(batch_size, -1, self.head, self.d_k).transpose(1, 2)
for model, x in zip(self.linears, (query, key, value))]
x = attention(query, key, value)
x = x.transpose(1, 2).contiguous().view(batch_size, -1, self.head * self.d_k)
return self.linears[-1](x)
04 什么是自注意力 self-Attention
self-Attention 就是 query = key = value,上面讲的I have a dream
的例子实现的就是多头自注意力,在 Transformer 中,连接 Encoder 和 Decoder 的就不是自注意力,query 来自 Decoder,key 和 value 来自 Encoder,也就是 query != key = value。
05 延伸阅读
query,key,value
这种命名方式来自于搜索领域,假设我们有一个 key-value 形式的数据集,比如举例说我们知乎的文章,key 就是文章的标题,value 是文章的内容,那这个搜索系统就是希望,当我们输入一个 query 的时候,能够唯一返回一篇最我们最想要的文章。那在 Attention 中其实是对这个 task 做了一些退化处理,我们优化并不是返回一篇文章,而是返回所有的文章 value,并且使用 key 和 query 计算出来的相关权重,来找到一篇得分最高的文章,并给出一堆文章的排序,摆在眼前任你挑选。
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。