我想比较几个字符串,并找到最相似的字符串。我想知道是否有任何库、方法或最佳实践可以返回哪些字符串与其他字符串更相似。例如:
- “狐狸跳了”->“狐狸跳了”
- “快狐跳”->“狐狸”
这种比较将返回第一个比第二个更相似。
我想我需要一些方法,例如:
double similarityIndex(String s1, String s2)
有没有这样的地方?
编辑:我为什么要这样做?我正在编写一个脚本,将 MS Project 文件的输出与一些处理任务的遗留系统的输出进行比较。因为遗留系统的字段宽度非常有限,所以在添加值时,描述会被缩写。我想要一些半自动的方法来查找 MS Project 中的哪些条目与系统上的条目相似,这样我就可以获得生成的密钥。它有缺点,因为它仍然必须手动检查,但它会节省很多工作
原文由 Mario Ortegón 发布,翻译遵循 CC BY-SA 4.0 许可协议
是的,有许多有据可查的算法,例如:
可以在此处找到 一个很好的摘要(“Sam 的字符串度量”)(原始链接已失效,因此它链接到 Internet 档案)
还要检查这些项目: