10 月 24 日至 26 日,CSDN 第五届“1024 程序员节”在长沙召开,来自合合信息的常扬老师在“模型与工具”论坛上分享了合合信息的智能文档处理“百宝箱”,系统介绍了 TextIn ParseX、acge-embedding、markdown_tester 三种工具。正好我最近也在做一些扫描件的文档整理,就让我们一起来了解一下这几样工具到底有多神。文档解析的过程中最容易出现的问题就是版式复杂,抓取不到正确的位置从而解析错误。除此之外,还存在解析速度太慢、语义信息丢失等问题。如果是模型训练,则还会遇到 CornerCase 过多、召回结果排序困难、答案生成有幻觉等问题。合合信息本次推出智能文档处理“百宝箱”,解决这些问题都不在话下。
这次全新推出的 TextIn ParseX 做成了一个可视化工具,对于纯文字工作者来说实在是太方便了。我们可以从它的GitHub页面或官网页面直接体验。下面是我自己的一个小实验。双栏排版中这种跨栏的元素是最难定位的,我们看右侧确实很准确地识别到了。点击左侧文档右侧也会自动滚动到对应的位置,点击右边也是同样的效果。同时左侧会自动解析出文档目录结构,方便快速跳转。
不仅如此,下方还有难度更高的跨栏表格,可以看到也是很准确地识别到了,同时还还原成了表格的形制,我们可以直接复制到 word 等文本编辑器里,替换一下表格样式就可以直接用了,非常方便。
还有一个非常贴心的新设计,右上侧可以切换结果的格式,适应不同的应用场景。可以选择 markdown 用于博客、笔记等,也可以选择为 JSON 格式用于自动化脚本、机器学习等。如果只需要表格、公式或图片也有专门的标签页可以选择。
如果有进阶需求,可以在高级模式中进行个性化设置,调整参数来适应自己的需求。比如说我们要在解析文档进行结果审核校对、效果测评等场景,需要可视化展示文档解析后的结果的时候就可以进行结果的定制。
事实上,使用文档处理工具的并不只有文字工作者,还有机器学习模型研究人员。对于他们则有另外的利器可以使用,这就是向量化acge-embedding模型。它可以将海量的文本数据转化为一个有方向有数值的列表,进而计算文本相似性。这一特性使得它在内容审核、意图分析、情感分析、推荐系统、信息检索都有广泛的应用。
这一技术早已是研究 NLP 小伙伴门的必备技能,不过 acge-embedding 有绝招。相比其他模型,它的模型较小,占用资源少;同时模型输入文本长度为 1024,满足绝大部分场景的需求;最厉害的是,acge 模型支持可变嵌入维度,让文本嵌入模型在推理时具备可变 Embedding 大小的能力,可以根据企业场景采用不同的计算和存储消耗,这是大部分模型不具备的能力。acge-embedding 模型曾在 Massive Text Embedding Benchmark 中文榜单 C-MTEB 获得了第一名的好成绩,受到业界的广泛认可。
研究人员可以很轻易的使用 acge-embedding 模型开展对比学习技术、数据挖掘、多任务混合训练、MRL 训练和持续学习。比如说在应用在检索增强生成中,可以对文档块进行向量化表示;也可以对问题(query)进行向量化表示,查询高文本相似度的文档块召回;也可以文档块向量库实时动态更新,低成本高扩展;或者通过数据向量化处理保证数据安全。
程序员朋友们可能还有技术选型的需求,针对这一点合合信息还提供了markdown_tester文档解析测评工具,用以评价转换结果和原始文档内容相似度。文档解析结果可以从结果稳定、识别准确、性能更快三个方面评价,主要体现在电子档和扫描件的处理、文档图像预处理、物理版面分析、逻辑版面分析和文字识别几个角度。markdown_tester 通过对表格、段落、标题、阅读顺序、公式几个板块共 14 项指标进行定量测评,使开发者可直观地看到文本识别、解析和翻译的结果评估产品效果。最方便的是,在评测完毕后可以直接导出评分表格和更为直观的雷达图便于取用。
随着行业数字化转型,整合企业数据转化为资产,建设企业知识库成为企业获取竞争优势的重要工具。由于企业多种多样,需要处理的文档形式也不尽相同,多版式文档如产品设计方案和工艺流程图复杂等,机器读取难度大,识别准确率低。文件解析精度将会直接影响数据准确性,进而影响企业知识库的建设。合合信息的“百宝箱”能够针对不同数据处理场景逐一解决问题。在选择文档解析工具时,使用 markdown_tester 测评工具可以全面、定量地评估解析效果,帮助技术选型。在完成解析工作后可利用 TextIn ParseX 文档解析工具进行结果审核和修正,允许用户直接调整重要数据。
如果能够独立训练人工智能模型,企业可以通过 acge 文本向量化模型,开展大模型预训练语料与数据治理快速入库,对大量数据源进行统一管理,增强知识库的全面性和准确性。
除此以外,企业还可以开展文档翻译等直接应用。由于“百宝箱”能够获取文档页面结构,翻译的结果可以直接替换页面中的元素,保持原有格式的情况下输出结果,节约人力并提高工作效率。
合合信息“百宝箱”在电子档解析、扫描档识别上一直处于业界领先地位,能够做到不漏检、不错检、识别准确。同时对于特殊文档元素如无线表、跨页表格、各、页眉、页脚、公式、图像、印章、流程图、目录树等也有非常好的适配。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。