假如我有两篇文章，如何计算他们的相似度呢？具体有哪些思路和成熟的方法呢？

发布于
2018-05-15

更新于
2018-05-15

RT，假如我有两篇文章，如何计算他们的相似度呢？具体有哪些思路和成熟的方法呢？

文章提取机器学习自然语言处理相似度检测

阅读 2.9k

1 个回答

发布于
2018-05-16

更新于
2018-05-16

比较广的算法是计算两遍文章的向量和，大致方式是每个词或者字都是一个向量，然后所有向量相加，看两篇文章结果向量是不是相差不大。
举个例子，一个句子“我今天出去玩了”先分词　“我”，“今天”，“出去”，“玩”。第二个句子“我明天不去动物园”分词“我”，“明天”，“不去”，“动物园”。假设向量表示为长度和夹角：
我: (1,0)
今天: (1,10)
出去: (1, 20)
玩：(1, 30)
明天: (1, 15)
不去: (1, 200)
动物园: (1, 5)
最后把相关向量相加，计算两个结果向量的和大不大。就这个思路，网上找找应该有的。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题