- 公司的业务逻辑是:通过 OCR 扫描出来的 Word 文档,可能出现文字错误,乱码,或者缺少的情况。
- 由于这种 word 文档都是财务报表之类的,里面的专业用词都是固定的(做成 wordmodle 的形式),所以想用 word 文档中的文本和 wordmodle 进行比较,相似度较高的直接替换。
可能大家对 OCR 扫描出来的文档比较陌生,我贴张图给大家看看:
可能大家对 OCR 扫描出来的文档比较陌生,我贴张图给大家看看:
15 回答8.1k 阅读
8 回答5.9k 阅读
1 回答4.1k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
2 回答3.1k 阅读
2 回答3.8k 阅读
1 回答2.1k 阅读✓ 已解决
没啥特殊要求的话,我用的是levenshtein distance:
莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
这里也有样例代码
https://en.wikibooks.org/wiki...