tesseract ocr训练样本识别验证码的问题

Question

tesseract ocr训练样本识别验证码的问题

发布于
2018-02-14

这个问题已经折磨我两天了，希望有人能指点一下。
我想简单的识别一下验证码，因为验证码整体比较简单就没考虑使用TensorFlow cnn训练。
因为本身不是做这个方向，主要想赶快突破验证码识别进行下一步实验。
验证码主要长这个样子
图片描述

我主要使用了google的tesseract ocr，代码里简单的做了一下灰度处理，然后用了默认的eng库，识别效果不是很好。主要体现在：
1、这个验证码是四位的，经常被识别成五位或者更多；
2、浅色的字符有时候会被直接忽略，可能也跟我灰度处理做的比较简单有关系；
3、有些字符识别不清，比如9经常识别成O，V经常识别成Y，这个可以用一个字典来维护勘误，倒也问题不大。
整体的识别率我感觉可能有一半多点。
经过我自学了半天之后发现tesseract也是可以训练的，所以果断下载了jTessBoxEditor进行训练，但是这个软件真的非常不友好，第一次花了一个多小时勘误结果后续处理出现字符编码问题，第二次重来甚至根本识别都识别不出来
图片描述

我也1是醉了，如果忽略，在后续处理会直接报错page59

APPLY_BOXES:
   Boxes read from boxfile:       4
   Found 4 good blobs.
Generated training data for 1 words
Page 58
FAIL!
APPLY_BOXES: boxfile line 3/G ((80,0),(80,0)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       5
   Boxes failed resegmentation:       1
   Found 4 good blobs.
Generated training data for 1 words
Page 59
Error during processing.

真的不知道该怎么办了，有没有有经验的人给我点建议，本身不是做这个的，不想花太多时间在处理数字图像上，难道我真的要搞一个tf做cnn训练么。。。
多谢！！！！！！！！！！！

验证码图形验证码深度学习

python

阅读 7.8k

1 个回答

得票最新

studyaa

1338

发布于
2019-01-11

你好我想问一下您最后是怎么处理的

撰写回答