智能票据识别数据解决方案及行业案例

faddiddn

随着经济往来的日益频繁,票据表单等纸质材料在办公室中随处可见。一般来说,这些纸质材料都有着不容忽视的重要性,若不加以整理,便很容易丢失、损坏,造成难以处理的麻烦。信息化时代,票据、表单等纸质资料的管理方式也在不断推陈出新,如今,电子化管理才是主流。

将纸质资料信息化是数字化时代的必然趋势。过往票据、表单等资料信息化完全依赖人工录入,不仅效率低、易出错,且成本高,需要耗费巨大的人力物力。同时,人力录入的数据不是AI需要的数据,难以被复用,也无法支撑AI算法。

以保险行业为例,截至2018年底,我国保险市场的年保费收入总额达到3.8万亿。十年来一直保持高增速,目前增速也保持在10%左右。保险市场的不断增长促生了的大量业务票据,2017年保险类单据总计约51亿张。按照年平均增长率10%计算,2021年保险类单据预计在75亿张。未来大概率会突破每年百亿张。

而使用OCR表单识别系统,只需拍照扫描,系统便会自动采集数据信息。数据堂可以提供提供完整的、高效的保险单据治理解决方案——数加加Pro标注平台。用来完成OCR表单识别系统的核心能力搭建。其方案主要包含:OCR预识别 + 人工管理 + 数据输出 + 模型迭代四大模块,构成Human In the Loop人在回路闭环。

image.png

数加加Pro是什么:基于数据堂多年实验经验研发的数据集生产平台。其覆盖了多年实际生产经验沉淀打磨的模板工具,以及丰富质量管理标注流程,包含了数据处理以及在线预识别能力。

数加加Pro定位:多年标注实战经验的集大成者。

image.png

基于我司OCR识别引擎,提供单据OCR预识别服务(行级检测+文本转写)

目前预识别性能:检测识别精度:字精确度90%以上(字体清晰且无大角度倾斜)

检测识别速度:25s/张(CPU)、1s/张(GPU)

随着数据集不断更新和算法迭代,算法性能会继续提升。后面可以灵活切换成客户自己的预识别引擎,标注平台与预识别引擎通过插件化实现轻耦合,客户只需按照插件规范进行少量编码开发Docker镜像上传到平台即可。

image.png

真实数据检测识别样例1:增值税专用发票

通过预识别处理,在OCR模板中可以展示机器的预识别标签给标注人员。标注人员要做机器预识别的错误检查,对于错误预识别处进行修改更正再提交给质检。

通过高效合理的OCR预识别引擎,可以有效的提高标注人员30%左右的标注效率。

![上传中...]()

真实数据检测识别样例2:门诊收费单据

image.png

数据堂OCR预识别应用插件目前可以处理的票据类型涵盖发票、门诊收费票据、出租车票据、保险基金、住院记录、车险单、银行承兑汇票等多行业、多种类的票据形式。

标注人员对预识别数据进行检查后,可以提交的数据到后续的质量控制环节:数据质检。数据质检支持抽检比例设定,错误类型自定义等功能。

质检人员可以指出标注人员的整图错误和标签级错误,给出错误原因并支持将数据打回给标注返修。系统内置了多种错误类型,比如:框不贴合、标注对象不符,标签和属性错误等。也支持项目经理针对项目特点自定义错误类型。

image.png

标注数据目前以业界通用的json格式输出。面向不同客户需求,我方可以提供多种通用在线格式转换程序:例如Pascal VOC(.xml)、Labelme(.json)等输出数据既可以导入数据平台系统帮助实际业务,也可以形成标准AI数据集用于算法迭代。

image.png

综上,数据堂通过数加加Pro私有化部署标注平台,可以提供完整的、高效的单据治理解决方案,并通过私有化部署等手段保证客户的数据隐私和安全。

其解决方案核心内容包括如下:

  1. 算法:OCR预识别能力,并可以使用用户自己的OCR预识别引擎;
  2. 工具:功能完备的数据生产平台;
  3. 人员:可以提供数据标注基地人员服务及项目管理。

在实际客户初期OCR的解决方案,我们建议如下目标,采用三步走的方式:

  1. 初期:单据标注录入线上化,规范化,构建OCR预识别基础能力;
  2. 中期:实现票据录入 —> AI数据集 —> OCR模型迭代闭环,强化整理能力;
  3. 后期:OCR预识别能力趋于完美,单据录入高度自动化。
阅读 85

1 声望
0 粉丝
0 条评论
1 声望
0 粉丝
文章目录
宣传栏