OCR识别验证码

最近在爬某网站,老是蹦出来验证码,就想着找个OCR破了这个验证码,然后就开始了OCR探索之旅。

首先简单说一下什么是OCR

OCR是(Optical Character Recognition,光学字符识别)的简称,主要用途:

  1. 办公用途,用来识别图片里面的文字,可以高效率的录入图片类型文件。

  2. 识别网站验证码

  3. 详见维基百科或者百度百科

OCR识别的验证码原理

  1. 采集一批验证码,根据图片特点进行初步处理(二值化/灰度化/滤波/降噪等处理)

  2. 然后分割图片,旋转图片,模板选取,训练算法,让它更准确。

  3. 有兴趣的可以看一个Python实现的OCR识别验证码详细demo,实际操作过程挺有意思的,大家有兴趣了可以试试

OCR识别验证码的具体操作

  1. 首先我测试了一个百度开源的Node.js实现的OCR包
    gitHub地址 https://github.com/netpi/baidu-ocr-api

安装也很简单直接按照官方的文档安装即可
发现百度的这个OCR包识别效果不太理想

![node_ocr.png][1]  
  1. 然后经过一番Google和小伙伴们的推荐 选择一个Google开源的tesseract这个是C++写的,直接融合到爬虫里不太方便,__有外国朋友基于tesseract封装了一个Python的包pytesseract__,直接开箱即用,融入爬虫程序中。

  2. 百闻不如一run

    **ps(这里使用的操作系统是Ubuntu16.04;Python版本是2.7)**  
    直接 `pip install pytesseract` 然后Python图片处理要用到PIL(Python Imaging Library) `pip install PIL`
    原图片   

    ocr.gif

写个简单的测试demo
![code.png][3]

看下识别结果   
![error.png][4] 

报错了, 根据报错信息来看,是确实了什么文件,或者依赖lib
我跟踪了pytesseract的代码,发现是少了C++提供的OCR服务,因为pytesseract是调用的tesseract(C++写的)
然后安装tesseract ```sudo apt install tesseract```
再run一下代码

pyocr_res.png

整体结果还可以(倒数第四位识别错了),再训练一下准确率就更高了。
预知后事如何,且听下回分解


代码与远方
生活不止眼前的苟且,还有代码和远方。

一个程序猿,喜欢学习技术,喜欢交流技术

3.4k 声望
1.2k 粉丝
0 条评论
推荐阅读
Hackintosh (黑苹果) 折腾
EFI 引导文件可以去 git clone https://github.com/wujunze/ASRock-Z370-Pro4-9900K-Hackintosh

CodeCloud1阅读 2.1k

最好用的 python 库合集
🎈 分词 - jieba优秀的中文分词库,依靠中文词库,利用词库确定汉子之间关联的概率,形成分词结果 {代码...} 🎈 词云库 - wordcloud对数据中出现频率较高的 关键词 生成的一幅图像,予以视觉上的突出 {代码...} 🎈 ...

tiny极客11阅读 2.8k评论 2

封面图
数据结构与算法:二分查找
一、常见数据结构简单数据结构(必须理解和掌握)有序数据结构:栈、队列、链表。有序数据结构省空间(储存空间小)无序数据结构:集合、字典、散列表,无序数据结构省时间(读取时间快)复杂数据结构树、 堆图二...

白鲸鱼9阅读 5.3k

滚蛋吧,正则表达式!
你是不是也有这样的操作,比如你需要使用「电子邮箱正则表达式」,首先想到的就是直接百度上搜索一个,然后采用 CV 大法神奇地接入到你的代码中?

良许3阅读 1.4k

搭个ChatGPT算法模型,从哪开始?
最近 ChatGPT 很火,火到了各行各业。记得去年更多的还是码农最新体验后拿它搜代码,现在各行各业都进来体验,问它咋理财、怎么写报告和给小孩起名。😂 也因此让小傅哥在头条的一篇关于 ChatGPT 的文章都有了26万...

小傅哥6阅读 1.1k

封面图
程序员适合创业吗?
大家好,我是良许。从去年 12 月开始,我已经在视频号、抖音等主流视频平台上连续更新视频到现在,并得到了不错的评价。每个视频都花了很多时间精力用心制作,欢迎大家关注哦~考虑到有些小伙伴没有看过我的视频,...

良许3阅读 1.2k

Ubuntu20.04 从源代码编译安装 python3.10
Ubuntu 22.04 Release DateUbuntu 22.04 Jammy Jellyfish is scheduled for release on April 21, 2022If you’re ready to use Ubuntu 22.04 Jammy Jellyfish, you can either upgrade your current Ubuntu syste...

ponponon1阅读 4.5k评论 1

一个程序猿,喜欢学习技术,喜欢交流技术

3.4k 声望
1.2k 粉丝
宣传栏