中医智能化 - SegmentFault 思否

2022-01-28

阅读 7 分钟

1.6k

问题：本来是从《伤寒论医案集》pdf中识别文字，但是此书的pdf图片分辨很低，不清晰，即使调用百度的高精度ocr识别错误率也比较高。后来找到了该书的最新版，买了一本京东的电子版，然后准备把里面的医案一个一个复制出来进行整理，但是弄了好久，感觉还是太慢了，里面医案有500多啊。

2022-01-26

阅读 2 分钟

2.6k

上一篇文章中用到的方法是从pdf中读取二进制之后，直接生成image，中间调整图片分辨率的参数。这里采用另外一种方法，可以提高图片的清晰度。上代码：

2022-01-26

阅读 6 分钟

1.9k

思路：把pdf文件转换为单张图片集合，然后再对单张图片进行ocr识别，对识别的结果文字进行拼接。利用pypdf2模块，读取pdf，读取二进制内容，利用wand模块将其中某一页转换为图片并保存。