从大量PDF中提取信息

chess99

70421429

发布于
2019-08-28

有500+的PDF, 都是企业的年报, 要在这些PDF里边提取关于高管的简历信息。
高管的信息都是集中的, 300多页的PDF它大概占了20页这样, 但是每个公司的编排不太一样. 大部分有统一的标题, 但是有的没有.

人工智能

python pdf

阅读 2.6k

1 个回答

得票最新

chess99

70421429

发布于
2019-08-28

python有个pdfminer, nodejs有个pdf2json. 初步看来似乎pdfminer好用一些.
但是如何处理不同的可能的标题, 把所有可能性都列出来?
以及如何确定简历信息的文本范围呢?

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

` Stable Diffusion ` 开源之后为何一直不更新呢？
Stable Diffusion 很久没有更新了，1、请问这个是哪个公司开源出来的呢，目的是什么呢？2、但是开源之后为何一直不更新呢？
3 回答3.4k 阅读✓ 已解决
Qt中布局是否只有5种呢？
我们经常看到的Qt的布局有：5种（都是继承自QLayout） {代码...} 但是我在官方文档有看到其他的Layout相关命名，例如：QPageLayoutQTextLayout等等请问这些是用于布局的吗？还是说Qt中布局就只有5种呢？
4 回答4.4k 阅读✓ 已解决
这段代码为什么不能获取到数据？
{代码...}
4 回答3.8k 阅读✓ 已解决
字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？
尝试一下字节的 trae AI IDE ([链接])安装后导入 vscode 的配置，好像一起把 vscode 的插件也导入了也能看到 vscode 之前配置的 ssh remote 但是连不上看到「输出」如下⬇️ {代码...}
1 回答3k 阅读✓ 已解决
请问一下，如何理解reduce函数呢？
但是reduce是减少的意思，请问如何形象化地理解reduce呢？我们可不可以理解：把参数2一个一个地带入到参数1（函数）中执行，这样也就慢慢减少呢？
3 回答2.1k 阅读✓ 已解决
如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？
通过python+selenium去爬取goodreads上一本书的评论，由于goodreads的评论是一页加载所有内容，不断点load more，就不断在该页面增加内容，在加载到3000-5000条评论时，页面就会崩溃，用的edge，内存设置的无限制。这种情况应该怎么做才行。
1 回答4.5k 阅读✓ 已解决
如何使用 python 代码实现迅雷磁力链接资源的下载？
很多磁力链接，只有使用迅雷客户端才能下载有速度但是迅雷客户端没有可操作的 sdk如果我有很多的磁力链接，需要下载，且需要指定每个磁力的下载位置等等操作，怎么实现自动化和批量化？
1 回答3.8k 阅读✓ 已解决

相似问题

如何从PDF文件中提取文本？
1 回答424 阅读
如何从重命名脚本中提取 PDF 文档的标题？
2 回答1.1k 阅读✓ 已解决
PyPDF2提取内容为空
3.3k 阅读
python怎样批量读取CAD文件右下角的文字信息，如图号，工程名之类？
1 回答2k 阅读
tensforflow 提取指定文本，有没有类似demo或者资料查找方向
1.6k 阅读

找不到问题？创建新问题

从大量PDF中提取信息

你尚未登录，登录后可以

` Stable Diffusion ` 开源之后为何一直不更新呢？

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？