0.基础环境
类别:笔记本
型号:中国长城 NF14C
硬件平台:飞腾处理器(ArmV8 指令集)
系统:银河麒麟操作系统 V10 SP1(2303)
关键词:
信创,麒麟系统,linux,c++,c,飞腾,arm,ocr,acdsee
1.背景
在我们日常使用的过程中,特别是windows 11后,其自带的看图软件支持OCR(图片中直接复制出需要 的文本),给了我们很大的便利。本文试图为大家在麒麟系统下找到对应的看图软件,提升大家日常工作的便利性。
2.gImageReader
gImageReader是一个GUI软件,实现利用tesseract OCR引擎(Tesseract本身是命令行工具)从Linux中的图像和PDF文档中识别文本。
2.1.1 安装与设置
可以通过市场安装
也可以通过命令行安装
sudo apt install tesseract-ocr -y #安装语言支持引擎,最后得到的是在/usr/share/tesseract-ocr/4.00/tessdata ,其中4.00 为版本
sudo apt install gimagereader -y
针对中文支持需要下载官方模型
A:https://github.com/tesseract-ocr/tessdata These language data files only work with Tesseract 4.0.0 and newer versions
网友自发的中文模型
B:https://github.com/gumblex/tessdata_chi 中文的特殊支持,下载https://github.com/gumblex/tessdata_chi/releases/tag/v20220621
sudo chmod 777 -R /usr/share/tesseract-ocr/4.00/tessdata/ #更改读写权限
先将A的数据解压复制进/usr/share/tesseract-ocr/4.00/tessdata/,再将B的数据解压复制进/usr/share/tesseract-ocr/4.00/tessdata/,如提示重复可直接覆盖。
2.1.2使用效果
切换识别语言
可以选定一个区域,也可以全部识别,识别效果如下
可以看到对中文识别效果并不理想,对英文的识别效果如下,对英文识别效果很理想。
3.截图OCR
安装体验还是很不错的,打开后
试用后,对中文的识别很精准,图片仅支持jpg格式。
写在最后
本文尝试多许多网友推荐的eSearch,Uni-OCR等,都不支持ARM64,所以就未收录在本篇文章中。gImageReader效果虽然不好,但还有一定的作用,在没有更好的之前仍会保留在本篇文章中。
接下来会继续尝试,尝试找到一个可用的,完善的产品或解决方案 。
麒麟系统专栏:
地址一:https://segmentfault.com/blog/kylinos
邮箱:1179611323@qq.com
群:662512340
github:https://github.com/xiaohelong
twitter:https://twitter.com/xiaohelong
发行日志:
20230517 首发
20230518 增加截图OCR
20230522 增加对gImageReader对英文的识别效果
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。