我正在尝试将 pdf 转换为包含表格格式的 Dataframe。我正在使用 Python 3.6。
请帮我转换相同的。
请点击链接获取 pdf 文件:
http://centerforcollegeaffordability.org/uploads/component-rankings-2014-v2.pdf
原文由 Saurabh Pore 发布,翻译遵循 CC BY-SA 4.0 许可协议
我正在尝试将 pdf 转换为包含表格格式的 Dataframe。我正在使用 Python 3.6。
请帮我转换相同的。
请点击链接获取 pdf 文件:
http://centerforcollegeaffordability.org/uploads/component-rankings-2014-v2.pdf
原文由 Saurabh Pore 发布,翻译遵循 CC BY-SA 4.0 许可协议
我找到了出路。我正在使用 Tabula-py 绑定和 PyPDF2。
我正在使用 PyPDF2 获取 PDF 中的页数并使用它遍历 .pdf 文件的每一页。
并且,Tabula 用于提取数据并将其转换为数据框。
如果有更好的方法,请更正。