费了好大的劲 装好了tesseract-ocr 真的好坑这个东西
python层面的包 我也装好好几个 tesserorc , pytesser, pytsseract
网上资料极其乱,我到现在都 不明白 在PYTHON层面上 上面这三个包有啥区别。
然后以为可以了,自己做了一个最简单的验证码,就是白底黑字四个数字,居然输得出empty page 崩溃了
折腾了好久。都不明白为啥 难道这么简单的都 识别不了?
然后我弄了个纯英文的文章,满长的,在那跑了好久 居然全给识别出来了。我晕了
难道tesseract-ocr的 tessdata里面没有数字识别?
大佬们这要咋办,这种情况该怎么处理了 有点蒙了
命令tesseract imagename outputbase digits只识别数字,不过如果是验证码的数字估计识别出来是空,因为有噪声和倾斜,需要先使用jTessBoxEditor工具训练