各位大神，麻烦指点下从扫描版pdf文件提取图片的方法， orc的话好像结果并不能很好的解决问题，

求从pdf文件(扫描版)提取图片的方法~ （语言不限）

5 个回答

得票最新

苏生不惑

✓ 已被采纳

StormerZ

我的思路：找个PDF的解析库；了解图片在PDF中是什么的格式或者标签；读取某页中的所有图片到二进制流，保存成图片文件到本地。

小小小菜鸟

6551210

发布于
2016-12-12

参考 http://blog.csdn.net/eiceblue...

我勒个去

1.9k43953

发布于
2016-12-12

能详细说明下你的需求吗,我之前做过这方面的工作,不过当时是通过pdf中标题提取它相关的图片。

sunnylyr

10242129

发布于
2016-12-16

经过一番尝试，自答总结下：pdfminer看官网文档就足够解决jpeg,png,gif,bmp格式的提取图片问题，另外pdfImage直接可帮你处理好提取，但这两种办法都是针对非扫描的pdf，== 扫描的处理起来就麻烦多了，毕竟orc和opencv都不能完全保证精度啦，如果有好的解决办法，欢迎交流分享~~

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

求从pdf文件(扫描版)提取图片的方法~ （语言不限）

你尚未登录，登录后可以

我想使用命令行指令批量从md文件生成pdf文件,该怎么做?

微信是如何实现图片跳转到原始文章的？