头图

💡TextIn ParseX重要版本更新内容速读:

  • 新增公式解析参数formula_level,支持LaTeX/Text灵活切换;
  • 表格解析优化单元格内换行输出;
  • 导出excel时,图片链接放在单元格内;
  • 新增电子档pdf去印章功能。

近期,为深度适配教育、金融、医疗、企业办公等场景需求,TextIn ParseX发布一系列功能升级,提升文档处理效率与准确性。下文将对新功能及版本优化进行详细介绍。

1 新增公式解析参数

新增参数 formula_level,用户可以通过参数控制不同层级的输出,支持自由切换公式输出形式,实现对公式解析的差异化需求。

参数详解

A. formula_level=0:获取精确的Latex公式格式

B. formula_level=2:将公式还原为纯文本

2 表格功能优化升级

A. 单元格内换行优化

表格解析支持单元格内换行的处理。

  • 在单元格中需要换行的地方,使用
    表示;
  • 不管 table_flavor 参数是html还是md,都使用同样的换行符;
  • 输出结果中:
  • markdown、detail->text、pages->structured->text,均添加
  • pages->content 仍按行表示,不做修改
  • 导出的excel中,用 \n 替换
    表示

    B. 导出excel时,图片链接放在单元格内

    解析表格导出为 Excel 文件时,支持仅保留图片链接,去掉所有markdown或html的标签。

    3 图像处理升级:新增电子档去印章

    电子档pdf解析支持自动去除页面印章。

⭐欢迎后台私信小助手免费在线体验文档解析,领取更多福利、大模型应用技术学习材料。

新增功能有任何使用问题,欢迎来交流群与我们共同探讨技术发展与AI应用的可能性。


合合技术团队
31 声望7 粉丝

上海合合信息科技股份有限公司人工智能团队,在上海市领军人才合合信息董事长镇立新博士带领下,开展面向复杂多场景文字识别理解及应用的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解...