如何用JAVA实现两篇文章的相似度的甄别,有没有类似的例子或者书籍、论文?
linux下,grep一下。。
没写过,不过个人觉着应该主要是字符串处理吧,优先看连续字符串匹配度,是不是还有模糊匹配啊,然后看有多少处,个人看法。。。
谷歌用SimHash做大量网页去重,适合大文本
15 回答8.4k 阅读
8 回答6.3k 阅读
1 回答3.1k 阅读✓ 已解决
1 回答4.1k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
2 回答3.1k 阅读
2 回答3.8k 阅读
2 回答3.6k 阅读✓ 已解决
1 回答6.3k 阅读
1k 阅读
1 回答4.9k 阅读✓ 已解决
1 回答3.3k 阅读✓ 已解决
linux下,grep一下。。