从大量PDF中提取信息

有500+的PDF, 都是企业的年报, 要在这些PDF里边提取关于高管的简历信息。
高管的信息都是集中的, 300多页的PDF它大概占了20页这样, 但是每个公司的编排不太一样. 大部分有统一的标题, 但是有的没有.

阅读 2.6k
1 个回答

python有个pdfminer, nodejs有个pdf2json. 初步看来似乎pdfminer好用一些.
但是如何处理不同的可能的标题, 把所有可能性都列出来?
以及如何确定简历信息的文本范围呢?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题