有500+的PDF, 都是企业的年报, 要在这些PDF里边提取关于高管的简历信息。
高管的信息都是集中的, 300多页的PDF它大概占了20页这样, 但是每个公司的编排不太一样. 大部分有统一的标题, 但是有的没有.
有500+的PDF, 都是企业的年报, 要在这些PDF里边提取关于高管的简历信息。
高管的信息都是集中的, 300多页的PDF它大概占了20页这样, 但是每个公司的编排不太一样. 大部分有统一的标题, 但是有的没有.
3 回答3.4k 阅读✓ 已解决
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答3k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
python有个pdfminer, nodejs有个pdf2json. 初步看来似乎pdfminer好用一些.
但是如何处理不同的可能的标题, 把所有可能性都列出来?
以及如何确定简历信息的文本范围呢?