请问各位大佬,如何准确汇总相似文章

新手上路,请多包涵

在摸索学习数据分析处理。
其中在相似文章汇总处卡住,找不到较好的相关教程、文档、思绪。

目前我使用的是simhash,分4分比照,但是效果不佳。

海明距离小于等于3的基本是原文一字不改的文章。
我发现海明距离9以内的也非常相似。

按照simhash64位分4份,按照1份相同就判断为海明距离3以内。
如果想分为8分,又要怎么计算呢。

我希望实现9以内的能够汇总在一起。

另外请问如何通过标题做相似汇总?

请各位大佬给点思绪或者教程。

不胜感激!以身相许!

阅读 782
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题