一文读懂OCR技术

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~

本文由腾讯云AI中心发表于云+社区专栏

摘要：在日常生活工作中，我们难免会遇到一些问题，比如自己辛辛苦苦写完的资料，好不容易打印出来却发现源文件丢了;收集了一些名片，却要一个一个地录入信息，很麻烦；快递公司的业务越来越好，但每天需要花费很多时间登记录入运单，效率非常的低。

那么，有没有什么技术能帮助我们解决这些难题呢？有的，那就是OCR文字识别技术。今天我们请到了腾讯云大数据AI产品中心的AI科学家冀永楠、产品经理Florali、陈英恬，高级工程师肖西华为咱们分享一下腾讯云近年来在这一领域的探索情况。

前面显示：让你把这个世界看得清清楚楚，真真切切

文︱Flora

什么是OCR？

OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。简单来说，就是将图片上的文字内容，智能识别成为可编辑的文本，例如：

OCR的技术原理是什么？

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术：文本检测和文字识别。先将图像中的特征进行提取并检测目标区域，之后对目标区域的字符进行分割和分类。

以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、二值化和文字分割等），并已在工业界得到广泛应用。

首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。

OCR技术的难点是什么？

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式、检测框字符残缺，等等。

如何克服这些难点？

从几个方面入手。一是使用场景，另一方面是从技术上进行改进。腾讯优图实验室在文本检测技术方进行了深度优化，提出了Compact Inception，通过设计合理的网络结构来提升各尺度的文字检测／提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

腾讯云OCR目前支持什么功能？

基于腾讯优图实验室世界领先的深度学习技术，目前我们已支持：身份证识别，银行卡识别，名片识别，营业执照识别，行驶证驾驶证识别，车牌号识别，通用印刷体识别，手写体识别。

通用印刷体的技术难点，使用场景

我们知道身份证识别可广泛应用在金融行业中，在身份认证中，可以减少用户的信息输入，提升效率，提高用户体验，营业执照的识别完全省去了手工录入的繁琐，还可以为企业省去大量的人力资源成本，这些场景大家都已经比较熟悉。

对于通用印刷体，腾讯优图实验室自主设计一整套全方位多尺度文字识别引擎，可攻破模糊，散焦，透视，文字部分遮挡的问题，识别准确率高达90%以上，处于业界领先水平。使用场景广泛，例如对任意版面上图像的文字识别，可广泛应用在印刷文档、广告图、医疗、物流等行业中的识别。

对于通用印刷体有没有什么好的例子？

例如这个广告，内容多字体多，中英文与数字混合，背景也比较随意。咱们的OCR通过透视矫正、去模糊等，能大幅还原图像真实度，极大提升算法的精确性。

再例如识别文字密集、行间距小，透视畸变等的海报。人工识别需要不仅耗费时间，肉眼也比较难识别。但腾讯云OCR设计了小而精的特征提取网络，配合先进的预处理技术，识别准确率高达93%以上。

有时候也会遇到识别率不理想的情况，如何可以提高识别准确率？

首先会确认下当前的场景，造成准确度不高的原因。评估可提高的空间设计，之后做出相应的修改，列入预处理等等。

关于腾讯云手写体识别这块有没有什么案例？

腾讯是国内首家将手写体识别应用在复杂场景下的服务商，数字识别准确率高达90%以上，单字识别速度在15ms以内，复杂汉字准确率超过80%。

腾讯云手写体OCR已运用到运单识别场景，解决了物流行业每日快递单人工输入工作量极大且极易出错，非常低效等问题。

运单识别与传统人工识别有什么区别呢？

如果传统人工识别按照3min/单，1000单需要6.25个人/天，保证运单时效则需要耗费大量人力，考虑人力成本则影响运单及时性，成本和服务难两全。

我们的运单识别速度可以达到毫秒级/单，并支持24小时识别服务，业务增长时只需要投入计算用服务器资源即可，弹性较大。

与传统识别相比，不仅成本可以降低，提高准确性，还可以保护用户的隐私泄露风险。

目前OCR应用现实中有很广泛的应用场景，腾讯云OCR有什么优势？

咱们的OCR文字识别技术，目前支持中文简繁体、英文、数字、标点共10000+标签，覆盖上百种字体，生僻字版本更支持2W+标签。

那咱们在行业中也有不少落地客户了吧？

新版手Q就用到了咱们的技术，在扫一扫、聊天窗口和空间图片大图预览共三个入口上支持了提取图片中文字的功能。

方便用户阅读、编辑、保存图片上的文字，从而可以对提取出的文字进行翻译、搜索。在多种场景下可以极大提升用户对图片上文字的阅读和记录效率。

企业微信中的名片识别也用到了咱们OCR技术。用户只需拍照或选择名片图片，就能准确快速地识别出名片中的文字，并自动提取为对应的字段，极大简化了名片录入流程，也避免了手动录入过程可能出现的错误。

问答
文字识别在格式上有什么要求？
相关阅读
多个场景中的AI落地实践
 “猜画小歌”的一些细节和思考
 低于0.01%的极致Crash率是怎么做到的？
云学院 · 课程推荐 | 知乎KOL，与你分享机器学习中如何做选择

此文已由作者授权腾讯云+社区发布，更多原文请点击

搜索关注公众号「云加社区」，第一时间获取技术干货，关注后回复1024 送你一份技术课程大礼包！

海量技术实践经验，尽在云加社区！

一文读懂OCR技术

腾讯云开发者

引用和评论

从效率革命到技术觉醒-解锁 AI 编程的未来密码 | TVP 技术夜未眠

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式