求从pdf文件(扫描版)提取图片的方法~ (语言不限)

各位大神,麻烦指点下从扫描版pdf文件提取图片的方法,
orc的话好像结果并不能很好的解决问题,

阅读 5.8k
5 个回答

我的思路: 找个PDF的解析库; 了解图片在PDF中是什么的格式或者标签; 读取某页中的所有图片到二进制流,保存成图片文件到本地。

能详细说明下你的需求吗,我之前做过这方面的工作,不过当时是通过pdf中标题提取它相关的图片。

经过一番尝试,自答总结下:pdfminer看官网文档就足够解决jpeg,png,gif,bmp格式的提取图片问题,另外pdfImage直接可帮你处理好提取,但这两种办法都是针对非扫描的pdf,== 扫描的处理起来就麻烦多了,毕竟orc和opencv都不能完全保证精度啦,如果有好的解决办法,欢迎交流分享~~

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进