tesseract-ocr的问题。我装好后下了个英文文章,可以识别出来,但是我自己做了一个主是四个数字的验证码却输出是空

费了好大的劲 装好了tesseract-ocr 真的好坑这个东西
python层面的包 我也装好好几个 tesserorc , pytesser, pytsseract

网上资料极其乱,我到现在都 不明白 在PYTHON层面上 上面这三个包有啥区别。

然后以为可以了,自己做了一个最简单的验证码,就是白底黑字四个数字,居然输得出empty page 崩溃了
折腾了好久。都不明白为啥 难道这么简单的都 识别不了?
然后我弄了个纯英文的文章,满长的,在那跑了好久 居然全给识别出来了。我晕了

难道tesseract-ocr的 tessdata里面没有数字识别?

大佬们这要咋办,这种情况该怎么处理了 有点蒙了

阅读 6.3k
1 个回答

命令tesseract imagename outputbase digits只识别数字,不过如果是验证码的数字估计识别出来是空,因为有噪声和倾斜,需要先使用jTessBoxEditor工具训练

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏