在 Python 中读取 PDF 属性/元数据

新手上路,请多包涵

如何使用 Python 读取存储在 PDF 文件中的属性/元数据,如标题、作者、主题和关键字?

原文由 Quicksilver 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.2k
2 个回答

试试 pdfminer

 from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument

fp = open('diveintopython.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)

print(doc.info)  # The "Info" metadata

这是输出:

 >>> [{'CreationDate': 'D:20040520151901-0500',
  'Creator': 'DocBook XSL Stylesheets V1.52.2',
  'Keywords': 'Python, Dive Into Python, tutorial, object-oriented, programming, documentation, book, free',
  'Producer': 'htmldoc 1.8.23 Copyright 1997-2002 Easy Software Products, All Rights Reserved.',
  'Title': 'Dive Into Python'}]

有关详细信息,请查看本教程: 用于在 Python 中提取 PDF 元数据的轻量级 XMP 解析器

原文由 namit 发布,翻译遵循 CC BY-SA 4.0 许可协议

对于 Python 3,请参阅 PyPDF2 ,其中来自 @Khaleel 的示例代码已更新为:

 from PyPDF2 import PdfReader
reader = PdfReader("test.pdf")
pdf_info = reader.metadata
print(str(pdf_info))

使用 pip install PyPDF2 安装。

原文由 Morten Zilmer 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题