我有数千个 pdf 文件需要从中提取数据。这是一个 pdf 示例。我想从示例 pdf 中提取此信息。
我对 nodejs、python 或任何其他有效方法持开放态度。我对 python 和 nodejs 知之甚少。我尝试在这段代码中使用 python
import PyPDF2
try:
pdfFileObj = open('test.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageNumber = pdfReader.numPages
page = pdfReader.getPage(0)
print(pageNumber)
pagecontent = page.extractText()
print(pagecontent)
except Exception as e:
print(e)
但我被困在如何找到采购历史上。从 pdf 中提取采购历史记录的最佳方法是什么?
原文由 e.iluf 发布,翻译遵循 CC BY-SA 4.0 许可协议
pdfplumber 是最好的选择。 [ 参考]
安装
提取所有文本