为什么平均嵌入是可以的?

主要观点:

  • 常通过将各物品嵌入相加来总结“物品袋”,如图神经网络通过平均各节点嵌入来总结图的部分,NLP 中常用词嵌入的(加权)平均来创建句子嵌入,且常将其作为分类器输入或用于下游任务。
  • 关于平均是好的表示方式的争论,虽加法不是一一对应的,可能有无限种取平均相同的嵌入方式,但经验表明平均在下游任务中能保留足够信息。
  • 平均是好的总结方式,因为在合理的神经嵌入统计模型下,两个无关集合有相似均值的概率很小,证明涉及切尔诺夫界。

关键信息:

  • 嵌入是从(N)个对象到向量(x\in\mathbb{R}^{d})的映射,通常限制在单位球面上,对象相似性对应对象嵌入间的距离。
  • 定义了(\Delta)-相似集合,若两个嵌入集合的平均距离小于(\Delta),则它们是(\Delta)-相似的,且两个(\Delta)-相似集合的嵌入平均值距离小于(\Delta)。
  • 假设嵌入服从均匀球面分布,通过高维中心极限定理,平均嵌入收敛到高斯分布,可将求平均嵌入间距离问题转化为求独立高斯随机向量间距离问题,利用切尔诺夫界得到相关概率界。

重要细节:

  • 以佛罗里达大西洋大学主页训练的词嵌入为例,“Florida”和“Atlantic”常一起出现,在嵌入空间中位置相近。
  • 实验表明不同内容的集合可能有相同平均嵌入,但这种情况不常发生,否则平均嵌入不适合作图神经网络和分类器的输入特征。
  • 证明中通过定义(X=\frac{1}{2}(Z + 1))服从(\mathrm{Beta}(\frac{d - 1}{2},\frac{d - 1}{2}))分布,利用切尔诺夫界得到概率界,并代入相关参数得到最终结果。
  • 文中还提及相关参考文献,如关于网络表示学习的教程、简单但有效的句子嵌入基线等。
阅读 10
0 条评论