使用 Tabula 从 PDF 中提取表格

Question

新手上路，请多包涵

我遇到了一个很棒的图书馆，叫做 Tabula，它几乎成功了。不幸的是，第一页上有很多无用的区域，我不想让 Tabula 提取它们。根据文档，您可以指定要从中提取的页面区域。但是，无用区域仅在我的 PDF 文件的第一页上，因此，对于所有后续页面，Tabula 将错过顶部部分。有没有办法指定区域条件仅适用于 PDF 的第一页？

 from tabula import read_pdf

df = read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages='all')

原文由 Riley Hun 发布，翻译遵循 CC BY-SA 4.0 许可协议

python parsing pdf tabula

阅读 967

1 个回答

得票最新

社区维基

1

发布于
2023-01-09

我正在尝试做类似的事情（解析银行对账单）并且遇到了同样的问题。到目前为止，我发现解决这个问题的唯一方法是单独解析每个页面。

唯一的问题是，这需要事先知道您的文件由多少页组成。目前我还没有找到如何直接使用 Tabula 执行此操作的方法，因此我决定使用 pyPdf 模块来获取页数。

 import pyPdf
from tabula import read_pdf

reader = pyPdf.PdfFileReader(open("C:\Users\riley\Desktop\Bank Statements\50340.pdf", mode='rb' ))
n = reader.getNumPages()

df = []
for page in [str(i+1) for i in range(n)]:
    if page == "1":
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages=page))
    else:
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", pages=page))

请注意，在单独或同时阅读每一页时，存在一些已知和未解决的问题。

祝你好运！

2017 年 8 月 3 日编辑：

找到了一种无需通过 pyPDF 即可计算 pdf 页数的更简单方法

import re
def count_pdf_pages(file_path):
    rxcountpages = re.compile(r"/Type\s*/Page([^s]|$)", re.MULTILINE|re.DOTALL)
    with open(file_path, "rb") as temp_file:
        return len(rxcountpages.findall(temp_file.read()))

其中 file_path 当然是你文件的路径

原文由 DavidVFF 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

使用 Tabula 从 PDF 中提取表格

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译