RPA开发教程丨RPA+OCR如何提取电子合同信息

随着公司产品UiBot的影响力在国内外不断增强，与合作伙伴签订的合同也变得越来越多，故此导致业务人员对合同关键信息的提取工作，变得日益繁重。

基于此，公司内部关于电子合同信息提取的流程自动化需求应运而生。

以下是关于RPA+OCR提取电子合同信息的流程视图。

RPA+OCR提取电子合同信息流程视图

基于电子合同信息的提取，根据文件类型，分为两大类：Word和PDF。

1、Word类。Word类的会直接用RPA机器人UiBot从信息里面根据字符规则提取出关键信息，生成结构化数据，当然，也会遇见有些Word文档是补充协议等，没有相关要提取的信息，这类会根据业务规则直接在流程里面，根据模板判断划分出来。

2、PDF类。PDF类的会根据里面信息分为两类，一类是文字型，一类是图片型。

文字的可以使用UiBot的窗口元素中的预制组件获取元素文本或者文本中的获取文本来提取关键信息。(需要注意的是使用Acrobat的时候，需要在编辑中选择辅助工具来做如下图操作)

Acrobat更改当前文档的阅读选项

图片类的，就必须要使用OCR来进行识别，然后进行信息提取，因为上面有盖章等不同因素的影响，正确率并不能保证百分之百，甚至也没有关键性可以回流验证的信息，所以生成的结构化数据仍需要人工二次校验，才可以录入系统，所以基于图片类的电子合同，并没有为业务人员节省多少时间，无非是图片类的电子合同占比并不高，所以影响不大。

当然此类电子合同都是使用公司固定的统一模板，所以总体业务并不复杂，但如果合同模板不能统一，各有特色，可能就需要根据各个模板的类型来做归类划分和业务异常处理。

另一方面，就技术上来说，也可以直接用源码模式来引用Office（Word，PDF文字类）的对象直接后台处理，相比较而言，处理速度会比较快一些。

原文地址：https://www.uibot.com.cn/news...

RPA开发教程丨RPA+OCR如何提取电子合同信息

UBStore

引用和评论

RPA+AI入门必须知道的39个名词

使用腾讯云的免费额度进行ocr识别，提取图片中的文字（每个月免费1000额度）

python实现图片文字识别

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

智能扫描助力节碳超13万吨，合合信息旗下扫描全能王“指尖减碳”写就绿色诗篇

智能体进化发展了一年，现在的RPA Agent迭代到什么程度了？

理解文字识别：一文读懂OCR商业化产品的算法逻辑