网页上传一篇文档或者一篇文字,如何实现该篇文档与网上的一些文库或者资源的相似度检测?
提出一个思路给你,这工作量太大了,没办法帮你实现完整;
1.用分词提取全文,比较两篇全文出现频率最高的前N个词重复率有多少;(提取分词的方案应该有现成的开源解决方案)
2.断句,比较单句子的之间的重复率有多少;
例如,方法1:
文章A出现频率最高的词:吃饭、睡觉、看报纸、玩游戏、写程序
文章B出现频率最高的词:吃饭、睡觉、泡妞、拉屎、看电影
文章C出现频率最高的词:吃饭、睡觉、看报纸、玩游戏、做作业
显然A,C文章相似度比较高;
当然这个结论不一定绝对准确,但是相对能判断。
例如,方案2:
文章A,提炼出135个句子;
文章B,提炼出165个句子;
你需要进行 135 * 165 次比较,最终结果是看看文章A的135个句子,在文章B 165个句子内重复率是多少。
8 回答4.9k 阅读✓ 已解决
6 回答3.7k 阅读✓ 已解决
5 回答3k 阅读✓ 已解决
5 回答6.5k 阅读✓ 已解决
4 回答2.3k 阅读✓ 已解决
5 回答1.4k 阅读✓ 已解决
4 回答2.8k 阅读✓ 已解决
php有个函数叫similar_text