从 pdf 中提取数据的最佳方法是什么

Question

新手上路，请多包涵

我有数千个 pdf 文件需要从中提取数据。这是一个 pdf 示例。我想从示例 pdf 中提取此信息。

我对 nodejs、python 或任何其他有效方法持开放态度。我对 python 和 nodejs 知之甚少。我尝试在这段代码中使用 python

 import PyPDF2

try:
   pdfFileObj = open('test.pdf', 'rb')
   pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
   pageNumber = pdfReader.numPages
   page = pdfReader.getPage(0)
   print(pageNumber)

   pagecontent = page.extractText()
   print(pagecontent)
except Exception as e:
   print(e)

但我被困在如何找到采购历史上。从 pdf 中提取采购历史记录的最佳方法是什么？

原文由 e.iluf 发布，翻译遵循 CC BY-SA 4.0 许可协议

python node.js pdf pdf-scraping

阅读 376

1 个回答

得票最新

社区维基

1

发布于
2023-01-11

pdfplumber 是最好的选择。 [ 参考]

安装

pip install pdfplumber

提取所有文本

import pdfplumber
path = 'path_to_pdf.pdf'
with pdfplumber.open(path) as pdf:
    for  page  in pdf.pages:
        print(page.extract_text())

原文由 Vishal Gupta 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

从 pdf 中提取数据的最佳方法是什么

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

怎么用Vue3和Element-Plus及手动写组件模仿一个网站的全站内容，要模仿的很像？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译