头图

今天给大家介绍一款测评工具,能方便快捷且全面地展示文档解析产品的能力。 没错,这个测评工具是我们做的✌️。
它的最大作用,是协助需要解析PDF的用户直观筛选最适合自己场景的产品。 在和用户交流的过程中,我们发现大家的需求非常多样,各有偏重:年报、财报、论文、政策文件、企业内部文件,或是教科书、试卷、公式,等等。
而尽管所有解析产品的目标都是成为“全能多面手”,在当前阶段,产品能力各有千秋也是正常的发展过程。 因此,我们将这款测评工具提供给大家,希望能够有所帮助,节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。
这套测评指标里,分了5个维度,针对表格、段落、标题、阅读顺序、公式进行定量测评。

先简单介绍一下这个测评工具的用法。 话不多说,上入口链接:https://github.com/intsig/markdown_tester
使用方式很便捷,支持上传任意自己想测的样本。

  • 首先,运行install.sh,安装软件包:

1./install.sh

  • 待测评样本按照下述方式放置:

1.dataset/

2.├── pred/

3.│ ├── gpt-4o/

4.│ ├── vendor_A/

5.│ ├── vendor_B/

6.│ ├── ...

7.├── gt/

  • 运行下述命令
  • 使用命令如下:

python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md 其中:

  • path_to_pred_md:预测值文件所在文件夹。
  • path_to_gt_md:真值文件所在文件夹。 我们直接用一个测试集案例来看下用法。 输出结果长这样⬇️ 表格数据结果:

还有直观的雷达图:

这个工具,我们把它称之为文档解析效果评估的“瑞士军刀”
不论你是文档处理的行家里手,或者对文档解析有使用需求,它都能协助你迅速、高效地评估你的业务场景下各款解析产品的能力。 顺带讲讲我们为什么会将这把原本内部用的“瑞士军刀”公开出来。
主要是因为,近期我们收到了越来越多的对测评工具的需求。我们的用户、上下游的同行朋友在评估各款解析产品的时候,其实一直挺痛苦:测试效果要么是端到端的,要么是肉眼判断的。前者很难真正定位到解析表现,后者更是耗时费力还只能观测一小部分样本。 我们的一位客户主要应用场景是大模型问答。在拥有测试工具前,他们评测对比各款解析产品效果,主要依靠问答效果随机测试,并人工二次检索文档来大致反推解析能力。
且不讨论这样评测的人力消耗程度,从科学性上来说,也是高随机性、低准确度的。 在使用了我们分享的测试工具后,“肉眼观测”解析效果这项工作,已经退出客户的舞台了。
其实,目前出现的测评难题来源于大语言模型发展下需求和产品形态的变化。举个栗子,传统的OCR技术在处理表格时,可能只是输出每个单元格的位置和数值。 但当我们用大模型来回答问题时,我们更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。所以,我们更倾向于使用逗号分隔或者Markdown格式来展示这些数据。
除了表格,标题、文本段落、单栏双栏的还原也同样面临着专业不对口的问题。这就意味着,我们以前用来评估OCR效果的那套方法,在大模型和RAG的场景下可能就不太适用了。
那么,要如何比较不同的文档解析产品在业务场景下的表现?一些产品的更新发版又对实际使用有多大的提升?
我们公开测评工具的目的就是把这些问题公开化、透明化。
所以,这套工具设计和优化的过程中,我们关注的有以下要素: 1.确定评测的主要目标和关键指标 2.选择能够准确反映性能的评价指标 3.减少不必要的复杂性 4.确保符合行业标准和最佳实践 5.让评价结果易于解读和理解 6.保持评价过程的透明度
希望我们的测评工具能为大家解决评估自己所需产品的难题。之后,我们还会继续“磨刀”,不断扩充测评的维度、厂商,让这款工具更加好用。
下一篇,我们还会展开聊聊相关指标是如何确定的,在应用场景下又代表着什么。
最后,也欢迎各位开发者给我们提出需求,包括但不限于对这个tester本身的优化建议,或者提供样本找我们对比测试,甚至是指定厂家做对比测试😁
TextIn文档解析产品目前正在内测计划中,为每位用户提供每周7000页的额度福利,关注公众号《合研社》即可申领。 关于测评工具、产品或需求,都可以随时找我们沟通。我们欢迎所有探讨和交流!


合合技术团队
23 声望5 粉丝

上海合合信息科技股份有限公司人工智能团队,在上海市领军人才合合信息董事长镇立新博士带领下,开展面向复杂多场景文字识别理解及应用的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解...