1
头图

0.基础环境

类别:笔记本
型号:中国长城 NF14C
硬件平台:飞腾处理器(ArmV8 指令集)
系统:银河麒麟操作系统 V10 SP1(2303)

关键词:
信创,麒麟系统,linux,c++,c,飞腾,arm,ocr,acdsee

1.背景

在我们日常使用的过程中,特别是windows 11后,其自带的看图软件支持OCR(图片中直接复制出需要 的文本),给了我们很大的便利。本文试图为大家在麒麟系统下找到对应的看图软件,提升大家日常工作的便利性。

2.gImageReader

gImageReader是一个GUI软件,实现利用tesseract OCR引擎(Tesseract本身是命令行工具)从Linux中的图像和PDF文档中识别文本。

2.1.1 安装与设置

可以通过市场安装
图片.png
也可以通过命令行安装

sudo apt install tesseract-ocr -y #安装语言支持引擎,最后得到的是在/usr/share/tesseract-ocr/4.00/tessdata ,其中4.00 为版本

sudo apt install gimagereader -y

针对中文支持需要下载官方模型
A:https://github.com/tesseract-ocr/tessdata These language data files only work with Tesseract 4.0.0 and newer versions
网友自发的中文模型
B:https://github.com/gumblex/tessdata_chi 中文的特殊支持,下载https://github.com/gumblex/tessdata_chi/releases/tag/v20220621

sudo chmod 777 -R  /usr/share/tesseract-ocr/4.00/tessdata/ #更改读写权限

先将A的数据解压复制进/usr/share/tesseract-ocr/4.00/tessdata/,再将B的数据解压复制进/usr/share/tesseract-ocr/4.00/tessdata/,如提示重复可直接覆盖。
图片.png
图片.png

2.1.2使用效果

图片.png
切换识别语言
图片.png
可以选定一个区域,也可以全部识别,识别效果如下
图片.png
可以看到对中文识别效果并不理想,对英文的识别效果如下,对英文识别效果很理想。
图片.png

3.截图OCR

图片.png
安装体验还是很不错的,打开后
图片.png
试用后,对中文的识别很精准,图片仅支持jpg格式。

写在最后

本文尝试多许多网友推荐的eSearch,Uni-OCR等,都不支持ARM64,所以就未收录在本篇文章中。gImageReader效果虽然不好,但还有一定的作用,在没有更好的之前仍会保留在本篇文章中。
接下来会继续尝试,尝试找到一个可用的,完善的产品或解决方案 。

麒麟系统专栏:
地址一:https://segmentfault.com/blog/kylinos
邮箱:1179611323@qq.com
群:662512340
github:https://github.com/xiaohelong
twitter:https://twitter.com/xiaohelong
发行日志:
20230517 首发
20230518 增加截图OCR
20230522 增加对gImageReader对英文的识别效果


码上世界
79 声望290 粉丝

码农极客,2004年接触Linux世界。爱技术的IT的男