从 pdf 中提取数据的最佳方法是什么

新手上路,请多包涵

我有数千个 pdf 文件需要从中提取数据。这是一个 pdf 示例。我想从示例 pdf 中提取此信息。

在此处输入图像描述

我对 nodejs、python 或任何其他有效方法持开放态度。我对 python 和 nodejs 知之甚少。我尝试在这段代码中使用 python

 import PyPDF2

try:
   pdfFileObj = open('test.pdf', 'rb')
   pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
   pageNumber = pdfReader.numPages
   page = pdfReader.getPage(0)
   print(pageNumber)

   pagecontent = page.extractText()
   print(pagecontent)
except Exception as e:
   print(e)

但我被困在如何找到采购历史上。从 pdf 中提取采购历史记录的最佳方法是什么?

原文由 e.iluf 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 376
1 个回答

pdfplumber 是最好的选择。 [ 参考]

安装

pip install pdfplumber

提取所有文本

import pdfplumber
path = 'path_to_pdf.pdf'
with pdfplumber.open(path) as pdf:
    for  page  in pdf.pages:
        print(page.extract_text())

原文由 Vishal Gupta 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题