新手上路，请多包涵

如何使用 Python 读取存储在 PDF 文件中的属性/元数据，如标题、作者、主题和关键字？

原文由 Quicksilver 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pdf metadata

阅读 1.2k

2 个回答

得票最新

社区维基

发布于
2023-01-05

✓ 已被采纳

试试 pdfminer ：

 from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument

fp = open('diveintopython.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)

print(doc.info)  # The "Info" metadata

这是输出：

 >>> [{'CreationDate': 'D:20040520151901-0500',
  'Creator': 'DocBook XSL Stylesheets V1.52.2',
  'Keywords': 'Python, Dive Into Python, tutorial, object-oriented, programming, documentation, book, free',
  'Producer': 'htmldoc 1.8.23 Copyright 1997-2002 Easy Software Products, All Rights Reserved.',
  'Title': 'Dive Into Python'}]

有关详细信息，请查看本教程：用于在 Python 中提取 PDF 元数据的轻量级 XMP 解析器。

原文由 namit 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-05

对于 Python 3，请参阅 PyPDF2 ，其中来自 @Khaleel 的示例代码已更新为：

 from PyPDF2 import PdfReader
reader = PdfReader("test.pdf")
pdf_info = reader.metadata
print(str(pdf_info))

使用 pip install PyPDF2 安装。

原文由 Morten Zilmer 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

在 Python 中读取 PDF 属性/元数据

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译