主要观点:
- 常通过将各物品嵌入相加来总结“物品袋”,如图神经网络通过平均各节点嵌入来总结图的部分,NLP 中常用词嵌入的(加权)平均来创建句子嵌入,且常将其作为分类器输入或用于下游任务。
- 关于平均是好的表示方式的争论,虽加法不是一一对应的,可能有无限种取平均相同的嵌入方式,但经验表明平均在下游任务中能保留足够信息。
- 平均是好的总结方式,因为在合理的神经嵌入统计模型下,两个无关集合有相似均值的概率很小,证明涉及切尔诺夫界。
关键信息:
- 嵌入是从(N)个对象到向量(x\in\mathbb{R}^{d})的映射,通常限制在单位球面上,对象相似性对应对象嵌入间的距离。
- 定义了(\Delta)-相似集合,若两个嵌入集合的平均距离小于(\Delta),则它们是(\Delta)-相似的,且两个(\Delta)-相似集合的嵌入平均值距离小于(\Delta)。
- 假设嵌入服从均匀球面分布,通过高维中心极限定理,平均嵌入收敛到高斯分布,可将求平均嵌入间距离问题转化为求独立高斯随机向量间距离问题,利用切尔诺夫界得到相关概率界。
重要细节:
- 以佛罗里达大西洋大学主页训练的词嵌入为例,“Florida”和“Atlantic”常一起出现,在嵌入空间中位置相近。
- 实验表明不同内容的集合可能有相同平均嵌入,但这种情况不常发生,否则平均嵌入不适合作图神经网络和分类器的输入特征。
- 证明中通过定义(X=\frac{1}{2}(Z + 1))服从(\mathrm{Beta}(\frac{d - 1}{2},\frac{d - 1}{2}))分布,利用切尔诺夫界得到概率界,并代入相关参数得到最终结果。
- 文中还提及相关参考文献,如关于网络表示学习的教程、简单但有效的句子嵌入基线等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。