人工智能 - 实测对比｜法国AI独角兽公司发布的“最强OCR”，实测效果如何？ - 个人文章

3月上旬，法国一家AI独角兽公司进军OCR（光学字符识别）领域，发布了一个号称“全世界最好的OCR”产品，根据其技术团队的说明，这款OCR产品具备优秀的准确度和认知能力，能够理解文档的每个元素（包括文本、表格、公式等），从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样，这款产品（下文中简称为“A产品”）旨在对AI难以直接识别的复杂文档进行解析处理，提升类似RAG等文档场景下的AI应用性能。

产品文档中介绍了它的几项优势：

对复杂文档实现SOTA理解：擅长理解复杂的文档元素，包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件，如带有图表、图形、公式和数字的科学论文。
基准测试成绩第一：在严格的基准测试中始终优于其他领先的 OCR 模型，其在文档分析的多个方面都表现出色。
支持原生多语言：能够解析、理解和转录各大洲的数千种脚本、字体和语言，便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。A产品发布后，全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下，A产品获得的评价也各有不同。如下图中的推文表示，在中文样本测试中，A产品的表现没有显著优势。也有AI团队认为，A产品超越了一些前沿LLM的OCR性能，但尚未完全为企业使用做好准备。

在实际生产环境中，A产品表现是否出色？它的中文文件处理性能与国内产品相较如何？
面对这些问题，TextIn测试团队进行了一次针对性测试，基于丰富的真实样本，全方面评测OCR产品能力。

测评指标

测评指标中分了6个维度，针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。

指标	说明
标题F1	2 (标题识别率标题召回率) / (标题识别率 + 标题召回率)
段落F1	2 (段落识别率段落召回率) / (段落识别率 + 段落召回率)
文本编辑距离	1-文本编辑距离（med）
版面阅读顺序	计算预测值和真值中，所有匹配段落的编辑距离
公式F1	2 ( 公式识别率公式召回率) / (公式识别率 + 公式召回率)
表格文本识别率	文本全对的表格个数（pred）/ 总表格个数（gt）
表格结构TEDS	所有表格树编辑距离分数之和（pred，不包含文字）/ 总表格数量（gt）
表格综合TEDS	所有表格树编辑距离分数之和（pred，包含文字）/ 总表格数量（gt）

测试数据集

本次测试基于实际生产环境中的多类型文件样本，包含PDF扫描文件、图像与电子文件，包含印刷、手写字体，语言以英语、中文为主，文件种类涵盖学术、商业、教育等场景，具体种类及数量如下图所示。

测试文件种类	样本数量
学术论文	20
金融年报	20
招投标文件	20
合同文件	20
电子书	20
教育题库	20
ESG报告	20
少线表格	20
银行承兑汇票	20
银行承兑汇票	20
金融研报	20
英语手写文件	11
K12试卷	14
国家标准文件	20
中文专利文件	20
简历	20
传统表格	20
增值税发票	20