假如我有两篇文章,如何计算他们的相似度呢?具体有哪些思路和成熟的方法呢?

RT,假如我有两篇文章,如何计算他们的相似度呢?具体有哪些思路和成熟的方法呢?

阅读 2.8k
1 个回答

比较广的算法是计算两遍文章的向量和,大致方式是每个词或者字都是一个向量,然后所有向量相加,看两篇文章结果向量是不是相差不大。
举个例子,一个句子“我今天出去玩了”先分词 “我”,“今天”,“出去”,“玩”。第二个句子“我明天不去动物园”分词“我”,“明天”,“不去”,“动物园”。假设向量表示为长度和夹角:
我: (1,0)
今天: (1,10)
出去: (1, 20)
玩:(1, 30)
明天: (1, 15)
不去: (1, 200)
动物园: (1, 5)
最后把相关向量相加,计算两个结果向量的和大不大。就这个思路,网上找找应该有的。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏