PyPDF2 入门介绍

主要观点:

  • pypdf2是纯 Python 的 PDF 库,可用于拆分、合并、裁剪和转换 PDF 页面,还能添加数据、查看选项和密码,提取文本和元数据。
  • pypdf2mathiew fenniak于 2005 年编写的原始pypdf的分支,原pypdf最后一次发布于 2014 年,phaseit, inc.赞助了pypdf2
  • 介绍了在文章中将学习的内容,如提取元数据、拆分文档、合并 PDF 文件、旋转页面、覆盖/水印页面、加密/解密等。

关键信息和重要细节:

  • 安装:使用pip安装pypdf2python -m pip install pypdf2,建议安装到 Python 虚拟环境中。
  • 提取元数据:通过pdffilereader类读取 PDF 并提取数据,如作者、标题、主题和页数等,代码示例为get_info函数。
  • 提取文本pypdf2对提取文本支持有限,无法提取图像,示例代码text_extractor在某些 PDF 上能提取部分文本,如w9.pdf的第二页。
  • 拆分 PDF:使用pdffilereaderpdffilewriter类,通过循环页面并创建独立的 PDF 文件来拆分 PDF,如pdf_splitter函数。
  • 合并 PDF:可以使用pdffilewriterpdffilereader类逐个添加页面来合并 PDF,也可以使用更简单的pdffilemerger类,如merger函数的两种实现方式。
  • 旋转页面pypdf2可按 90 度增量旋转页面,可顺时针或逆时针旋转,示例代码rotator展示了如何旋转页面。
  • 覆盖/水印页面:通过mergepage方法将水印页面覆盖在其他页面上,如watermarker函数将 logo 水印覆盖在w9.pdf上。
  • PDF 加密:使用encrypt函数添加密码和加密到 PDF,默认使用 128 位加密,若设置use_128bit=False则使用 40 位加密。

相关阅读:

阅读 12
0 条评论