Google Cloud 的 Document AI(Doc AI)可帮助组织自动化处理、提取和分类大量文档。它具有多种能力和用例,以下是一些对组织有帮助的方式,且这些用例适用于公共部门和私营公司:
- 处理应用:自动从服务/福利、驾照、建筑许可等应用中提取关键数据。
- 税务文档处理:从税务表格(W-2、1040 等)中提取信息,以加快处理和审计速度,本文将重点关注此示例。
- 医疗保健管理:处理医疗文档,如医疗记录和保险索赔,以加快支付。
- 失业:简化收集各种文档的流程,快速裁决,减少处理福利的时间。
在本博客文章中,将回顾如何为 W-2 表格创建自定义文档提取器,使用 Doc AI API 从文档中提取信息,并将 W-2 PDF 传递给 Gemini 以总结文档。
- 创建自定义处理器:可参考Document AI Workbench — Custom Document Extractor Google codelab,无需编写代码即可轻松创建、训练、测试、验证和部署自定义处理器,可选择三种不同的训练方法,如使用 Gemini 1.5 Flash 的训练方法,Gen AI 训练方法约需 50 份文档以获得最佳结果。
- 应用概述:应用非常简单,上传 W-2 PDF,Doc AI 提取关键项,Gemini 2.0 Flash总结 PDF,结果如下所示,将展示关于文档提取和使用 Gemini Flash 2.0 总结的代码,计划在 GitHub 上分享整个代码。
Doc AI 代码:
- 导入库:导入 Doc AI 库。
- Doc AI 处理器:从工作台获取 Doc AI 处理器信息。
- 读取和配置文件:将文件读取到
file_content
变量,将 PDF 加载到raw_document
变量供 Doc AI 扫描。 - 处理文档:将文档发送到 Doc AI,将结果保存到
document
变量。 - 提取关键数据:
extracted_data
变量是一个字典,获取文档中的实体并返回。
- 使用 Gemini 总结 PDF:使用 Gemini Flash 2.0 模型创建 W-2 的总结,代码简单,可直接在提示请求中提供 PDF 或 TXT,无需构建RAG或进行其他预处理,将 PDF 放在
model.generate_content
提示请求中,以下是 Gemini Flash 2.0 的结果。 参考资料:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。