头图

​ 3月上旬,法国一家AI独角兽公司进军OCR(光学字符识别)领域,发布了一个号称“全世界最好的OCR”产品,根据其技术团队的说明,这款OCR产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为“A产品”)旨在对AI难以直接识别的复杂文档进行解析处理,提升类似RAG等文档场景下的AI应用性能。

产品文档中介绍了它的几项优势:

◾ 对复杂文档实现SOTA理解:擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件,如带有图表、图形、公式和数字的科学论文。

◾ 基准测试成绩第一:在严格的基准测试中始终优于其他领先的 OCR 模型,其在文档分析的多个方面都表现出色。

◾ 支持原生多语言:能够解析、理解和转录各大洲的数千种脚本、字体和语言,便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。

A产品发布后,全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下,A产品获得的评价也各有不同。如下图中的推文表示,在中文样本测试中,A产品的表现没有显著优势。也有AI团队认为,A产品超越了一些前沿LLM的OCR性能,但尚未完全为企业使用做好准备。

图片

图片

在实际生产环境中,A产品表现是否出色?它的中文文件处理性能与国内产品相较如何?

面对这些问题,TextIn测试团队进行了一次针对性测试,基于丰富的真实样本,全方面评测OCR产品能力。

​测评指标

测评指标中分了6个维度,针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。

图片

图片

测试数据集

本次测试基于实际生产环境中的多类型文件样本,包含PDF扫描文件、图像与电子文件,包含印刷、手写字体,语言以英语、中文为主,文件种类涵盖学术、商业、教育等场景,具体种类及数量如下图所示。

图片

图片

测试结论

测试团队对A产品与TextIn文档解析工具开展对比测试,各项指标测试结果如下图所示。

图片

图片

整体而言,TextIn文档解析在各项指标上表现良好,其中表格解析能力较为突出,公式识别相对一般;A产品在英文论文、英文PDF扫描文档等文件类型上识别效果较好,中文以及手写性能一般,整体技术能力在中文环境及商业文件复杂样本下存在薄弱项。

其中:

◾ 表格识别存在缺陷,不支持合并单元格,对无线表无法正确识别;

◾ 文本如果带旋转角度,识别错误比较严重,会出现明显幻觉;

◾ 卡证票据、复杂背景、复杂版式(例如多栏文本)、手写等实际业务中常见场景下的文档识别效果一般。

点击立刻体验TextIn文档解析
图片
https://www.textin.com/market/detail/pdf_to_markdown?from=tex...

具体案例

英语科学论文

图片

图片

原文件

图片

图片

图片

图片

A产品识别结果可视化 VS TextIn识别结果可视化

如图中识别结果可见,对于英语科学论文样本,A产品和TextIn都可以正确识别标题与文本,其中A产品能完全准确解析复杂数学表达式,而TextIn解析的公式存在细微误差。

中文表单

图片

图片

原文件

图片

图片

图片

图片

A产品识别结果可视化 VS TextIn识别结果可视化

对于中文少线表单,TextIn能够正确解析,A产品则无法识别表格结构。

英语表格

图片

图片

原文件

图片

图片

图片

图片

A产品识别结果可视化 VS TextIn识别结果可视化

中文手写样本

图片

图片

原文件

图片

图片

图片

图片

        A产品识别结果可视化 VS TextIn识别结果可视化

对于试卷样本,A产品和TextIn都能正确解析试卷中的印刷体,但无法保证较为模糊的手写字体完全正确,其中,TextIn能够识别部分手写字体,A产品则缺少手写解析结果。


TextIn智能云平台
1 声望0 粉丝

合合信息TextIn官方账号,分享TextIn最新技术资讯