如何抓取PDF的指定资料?

请问 C#或是Java、Python等语言能解析PDF如下吗?
想要拿到Vendor跟Ship To跟Item No数据,困难是不能像Excel一样可以用A2,B3来抓取数据
image

阅读 3k
2 个回答

如果用C#,可以考虑使用Spire.PDF for .NET库来提取PDF页面中指定区域文字,参考文章:C#/VB.NET 从 PDF 页面的指定区域内提取文本

或者将PDF转换为Excel, 然后再读取Excel指定单元格的数据。

using Spire.Pdf;

namespace PDFtoExcel
{
    class Program
    {
        static void Main(string[] args)
        {
            //加载PDF文档
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("sample.pdf");

            //保存为Excel文档
            pdf.SaveToFile("ToExcel.xlsx",FileFormat.XLSX);
        }
    }
}

只要pdf数据是按标准规范填充的,肯定都可以用语言来提取。

pdf有好的数据结构,可以参考相应文档。

比如用python解析可以参考:https://zhuanlan.zhihu.com/p/137913872

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进