如何从电子书中提取文字?

2022-01-28
阅读 7 分钟
1.6k
问题:本来是从《伤寒论医案集》pdf中识别文字,但是此书的pdf图片分辨很低,不清晰,即使调用百度的高精度ocr识别错误率也比较高。后来找到了该书的最新版,买了一本京东的电子版,然后准备把里面的医案一个一个复制出来进行整理,但是弄了好久,感觉还是太慢了,里面医案有500多啊。

提高图片ocr识别正确率

2022-01-26
阅读 2 分钟
2.6k
上一篇文章中用到的方法是从pdf中读取二进制之后,直接生成image,中间调整图片分辨率的参数。这里采用另外一种方法,可以提高图片的清晰度。上代码:

医案图片pdf转文字的方法

2022-01-26
阅读 6 分钟
1.9k
思路:把pdf文件转换为单张图片集合,然后再对单张图片进行ocr识别,对识别的结果文字进行拼接。利用pypdf2模块,读取pdf,读取二进制内容,利用wand模块将其中某一页转换为图片并保存。