学习图像识别技术OCR时,接触到通过tesseract识别图片中的文字,感觉有用所以记录一下
安装文件和语言包均已下载,安装下方安装步骤进行即可
下载地址
https://digi.bib.uni-mannheim...
安装
1、点击tesseract-ocr-setup-4.00.00dev.exe文件,按提示安装就行,安装成功之后如下张图:
复制你的安装路径,我的安装路径D:\Python\Tesseract-OCR,界面如下:
路径
打开我的电脑系统属性->高级->环境变量
2、将下载好的字库放到Tesseract-OCR项目的tessdata文件夹里面。
识别
进入cmd,进入到要识别的图片的路径下E:**\tesseract图片识别(根据自己图片位置而定),输入命令
tesseract 图片名称 生成的结果文件的名称 字库
例如我的图片识别就是:
tesseract test.png result -l chi_sim
错误1
安装tesseract-ocr时,改变了默认路径,执行命令出现如下错误:
增加一个TESSDATA_PREFIX变量名,变量值为我的语言字库文件夹安装路径F:\Tesseract-OCR\tessdata 添加到变量中;如下图:
错误2
当字库里面没有对应字库时,会提示以下错误:
识别结果
示例1:先拿一个比较简单图片来识别
切换到图片目录在cmd窗口执行以下命令行:
tesseract test1.png result -l chi_sim
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
打开图片目录下result.txt
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。