文档相似度检测

新手上路,请多包涵

网页上传一篇文档或者一篇文字,如何实现该篇文档与网上的一些文库或者资源的相似度检测?

阅读 3.2k
2 个回答

php有个函数叫similar_text

提出一个思路给你,这工作量太大了,没办法帮你实现完整;
1.用分词提取全文,比较两篇全文出现频率最高的前N个词重复率有多少;(提取分词的方案应该有现成的开源解决方案)
2.断句,比较单句子的之间的重复率有多少;

例如,方法1:
文章A出现频率最高的词:吃饭、睡觉、看报纸、玩游戏、写程序
文章B出现频率最高的词:吃饭、睡觉、泡妞、拉屎、看电影
文章C出现频率最高的词:吃饭、睡觉、看报纸、玩游戏、做作业

显然A,C文章相似度比较高;
当然这个结论不一定绝对准确,但是相对能判断。

例如,方案2:
文章A,提炼出135个句子;
文章B,提炼出165个句子;
你需要进行 135 * 165 次比较,最终结果是看看文章A的135个句子,在文章B 165个句子内重复率是多少。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏