tesseract ocr训练样本识别验证码的问题

吃鱼不吃鱼尾巴
  • 34

这个问题已经折磨我两天了,希望有人能指点一下。
我想简单的识别一下验证码,因为验证码整体比较简单就没考虑使用TensorFlow cnn训练。
因为本身不是做这个方向,主要想赶快突破验证码识别进行下一步实验。
验证码主要长这个样子
图片描述

我主要使用了google的tesseract ocr,代码里简单的做了一下灰度处理,然后用了默认的eng库,识别效果不是很好。主要体现在:
1、这个验证码是四位的,经常被识别成五位或者更多;
2、浅色的字符有时候会被直接忽略,可能也跟我灰度处理做的比较简单有关系;
3、有些字符识别不清,比如9经常识别成O,V经常识别成Y,这个可以用一个字典来维护勘误,倒也问题不大。
整体的识别率我感觉可能有一半多点。
经过我自学了半天之后发现tesseract也是可以训练的,所以果断下载了jTessBoxEditor进行训练,但是这个软件真的非常不友好,第一次花了一个多小时勘误结果后续处理出现字符编码问题,第二次重来甚至根本识别都识别不出来
图片描述

我也1是醉了,如果忽略,在后续处理会直接报错page59

APPLY_BOXES:
   Boxes read from boxfile:       4
   Found 4 good blobs.
Generated training data for 1 words
Page 58
FAIL!
APPLY_BOXES: boxfile line 3/G ((80,0),(80,0)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       5
   Boxes failed resegmentation:       1
   Found 4 good blobs.
Generated training data for 1 words
Page 59
Error during processing.

真的不知道该怎么办了,有没有有经验的人给我点建议,本身不是做这个的,不想花太多时间在处理数字图像上,难道我真的要搞一个tf做cnn训练么。。。
多谢!!!!!!!!!!!

回复
阅读 6k
1 个回答

你好 我想问一下您最后是怎么处理的

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏