如何抓取PDF的指定资料?

小MIS

280138140

发布于
2022-03-07

请问 C#或是Java、Python等语言能解析PDF如下吗?
想要拿到Vendor跟Ship To跟Item No数据，困难是不能像Excel一样可以用A2,B3来抓取数据

c#.net pdf

阅读 3.1k

2 个回答

得票最新

STATION

462

发布于
2022-04-08

✓ 已被采纳

如果用C#，可以考虑使用Spire.PDF for .NET库来提取PDF页面中指定区域文字，参考文章：C#/VB.NET 从 PDF 页面的指定区域内提取文本

或者将PDF转换为Excel, 然后再读取Excel指定单元格的数据。

using Spire.Pdf;

namespace PDFtoExcel
{
    class Program
    {
        static void Main(string[] args)
        {
            //加载PDF文档
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("sample.pdf");

            //保存为Excel文档
            pdf.SaveToFile("ToExcel.xlsx",FileFormat.XLSX);
        }
    }
}

xdsnet

7.6k3527

发布于
2022-03-07

更新于
2022-03-07

只要pdf数据是按标准规范填充的，肯定都可以用语言来提取。

pdf有好的数据结构，可以参考相应文档。

比如用python解析可以参考：https://zhuanlan.zhihu.com/p/137913872

撰写回答