Tesseract-OCR安装使用说明

最後の溫柔

学习图像识别技术OCR时,接触到通过tesseract识别图片中的文字,感觉有用所以记录一下

安装文件和语言包均已下载,安装下方安装步骤进行即可

下载地址
https://digi.bib.uni-mannheim...

安装
1、点击tesseract-ocr-setup-4.00.00dev.exe文件,按提示安装就行,安装成功之后如下张图:
image.png

复制你的安装路径,我的安装路径D:\Python\Tesseract-OCR,界面如下:

image.png

路径
打开我的电脑系统属性->高级->环境变量
 image.png

2、将下载好的字库放到Tesseract-OCR项目的tessdata文件夹里面。
识别
进入cmd,进入到要识别的图片的路径下E:**\tesseract图片识别(根据自己图片位置而定),输入命令
 
tesseract 图片名称 生成的结果文件的名称 字库
例如我的图片识别就是:
 
tesseract test.png result -l chi_sim
错误1
安装tesseract-ocr时,改变了默认路径,执行命令出现如下错误:
 image.png

增加一个TESSDATA_PREFIX变量名,变量值为我的语言字库文件夹安装路径F:\Tesseract-OCR\tessdata 添加到变量中;如下图:
image.png

错误2
当字库里面没有对应字库时,会提示以下错误:
 image.png

识别结果
示例1:先拿一个比较简单图片来识别
 image.png

切换到图片目录在cmd窗口执行以下命令行:

image.png

 
tesseract test1.png result -l chi_sim
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
 

打开图片目录下result.txt

image.png

阅读 4.3k
1 声望
0 粉丝
0 条评论
1 声望
0 粉丝
文章目录
宣传栏