谷歌云文档 AI 基础 - SegmentFault 思否

Google Cloud 的 Document AI（Doc AI）可帮助组织自动化处理、提取和分类大量文档。它具有多种能力和用例，以下是一些对组织有帮助的方式，且这些用例适用于公共部门和私营公司：

在本博客文章中，将回顾如何为 W-2 表格创建自定义文档提取器，使用 Doc AI API 从文档中提取信息，并将 W-2 PDF 传递给 Gemini 以总结文档。

创建自定义处理器：可参考Document AI Workbench — Custom Document Extractor Google codelab，无需编写代码即可轻松创建、训练、测试、验证和部署自定义处理器，可选择三种不同的训练方法，如使用 Gemini 1.5 Flash 的训练方法，Gen AI 训练方法约需 50 份文档以获得最佳结果。
应用概述：应用非常简单，上传 W-2 PDF，Doc AI 提取关键项，Gemini 2.0 Flash总结 PDF，结果如下所示，将展示关于文档提取和使用 Gemini Flash 2.0 总结的代码，计划在 GitHub 上分享整个代码。
Doc AI 代码：
- 导入库：导入 Doc AI 库。
- Doc AI 处理器：从工作台获取 Doc AI 处理器信息。
- 读取和配置文件：将文件读取到file_content变量，将 PDF 加载到raw_document变量供 Doc AI 扫描。
- 处理文档：将文档发送到 Doc AI，将结果保存到document变量。
- 提取关键数据：extracted_data变量是一个字典，获取文档中的实体并返回。
使用 Gemini 总结 PDF：使用 Gemini Flash 2.0 模型创建 W-2 的总结，代码简单，可直接在提示请求中提供 PDF 或 TXT，无需构建RAG或进行其他预处理，将 PDF 放在model.generate_content提示请求中，以下是 Gemini Flash 2.0 的结果。
参考资料：