如何将多页 PDF 转换为 Python 中的图像对象列表？

Question

新手上路，请多包涵

我想将多页 PDF 文档转换为列表结构中的一系列图像对象，而不用 Python 将图像保存在磁盘中（我想用 PIL Image 处理它们）。到目前为止，我只能先将图像写入文件：

 from wand.image import Image

with Image(filename='source.pdf') as img:

    with img.convert('png') as converted:
        converted.save(filename='pyout/page.png')

但是我怎么能把上面的 img 对象直接变成 PIL.Image 对象列表呢？

原文由 Hendrik 发布，翻译遵循 CC BY-SA 4.0 许可协议

python 图片 image-processing wand

阅读 450

1 个回答

得票最新

社区维基

1

发布于
2023-01-09

新答案：

pip 安装 pdf2image

 from pdf2image import convert_from_path, convert_from_bytes
images = convert_from_path('/path/to/my.pdf')

您可能还需要安装枕头。这可能只适用于 linux。

https://github.com/Belval/pdf2image

两种方法的结果可能不同。

旧答案：

Python 3.4：

 from PIL import Image
from wand.image import Image as wimage
import os
import io

if __name__ == "__main__":
    filepath = "fill this in"
    assert os.path.exists(filepath)
    page_images = []
    with wimage(filename=filepath, resolution=200) as img:
        for page_wand_image_seq in img.sequence:
            page_wand_image = wimage(page_wand_image_seq)
            page_jpeg_bytes = page_wand_image.make_blob(format="jpeg")
            page_jpeg_data = io.BytesIO(page_jpeg_bytes)
            page_image = Image.open(page_jpeg_data)
            page_images.append(page_image)

最后，您可以对 mogrify 进行系统调用，但这可能会更复杂，因为您需要管理临时文件。

原文由 Bryant Kou 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何将多页 PDF 转换为 Python 中的图像对象列表？

新答案：

旧答案：

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译