BigQuery 与 Doc AI 集成：开启数据驱动洞察和创新的新时代！

人工智能新时代下，数字化转型加速，同时产生大量文本和其他文档数据，这些数据蕴藏着巨大的洞察潜力，并能驱动创新的生成式AI使用案例。

BigQuery 与文档 AI 的集成，让您可以轻松地从文档数据中提取分析，并构建新的大型语言模型（LLM）应用程序。
BigQuery 客户现在可以创建由 Google 的尖端基础模型驱动的文档 AI 自定义提取器，他们可以根据自己的文档和元数据进行定制。这些定制模型可以从 BigQuery 中调用，以安全、受管控的方式从文档中提取中提取数据，使用SQL的简单性和增强性。

统一、受管控的数据到AI体验

您可以在 Document AI Workbench 中通过三个步骤构建自定义提取器：

定义您需要从文档中提取的数据。这被称为文档架构，存储在每个自定义提取器的版本中，并且可从 BigQuery 访问
提供带注释的附加文档作为提取的样本
* 根据 Document AI 提供的基础模型，对自定义提取器进行训练

除了需要手动训练的自定义提取器外，Document AI 还提供了用于费用、收政府、发票、税表、身份证等多种场景的即插即用提取器，可在处理器库中直接使用，消耗执行上述步骤。

然后，一旦构建器准备就绪，您就可以在 BigQuery Studio 中使用 SQL 分析文档，具体包括以下四个步骤：

使用 SQL 提取器注册一个 BigQuery 远程模型。该模型能够理解文档架构（上面创建的），调用自定义提取器并解析结果。
使用 SQL 为存储在 Cloud Storage 中的创建文档对象表。您可以通过在表中管理非格式化数据设置行级访问策略，从而限制用户对特定文档的访问，并限制相应的 AI 对隐私和安全的影响。
使用 ML.PROCESS_DOCUMENT 函数在对象表上提取相关字段，通过对 API 端点进行推断调用。您还可以在函数之外使用“WHERE”子句来过滤提取的文档。该函数返回一个格式化表，其中每个一列都是被提取的字段。
将提取的数据与其他BigQuery表进行连接，结合重构和非重构数据，生成业务价值。

以下示例展示了用户体验：


# Show a screenshot of curating Doc AI custom extractor in Workbench

# Create an object table in BigQuery that maps to the document files stored in Cloud Storage.
CREATE OR REPLACE EXTERNAL TABLE `my_dataset.receipt_table`
WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
  object_metadata = 'SIMPLE',
  uris = ['gs://my_bucket/path/*'],
  metadata_cache_mode= 'AUTOMATIC',
  max_staleness= INTERVAL 1 HOUR
);

# Create a remote model to register your Doc AI processor in BigQuery.
CREATE OR REPLACE MODEL `my_dataset.invoice_parser`
REMOTE WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
  remote_service_type = 'CLOUD_AI_DOCUMENT_V1',   
  document_processor='projects/…/locations/us/processors/…/processorVersions/pretrained-invoice-v1.3-2022-07-15'
);

# Invoke the registered model over the object table to parse PDF expense receipts
SELECT uri, total_amount, invoice_date
FROM ML.PROCESS_DOCUMENT(
  MODEL `my_dataset.invoice_parser`,
  TABLE `my_dataset.receipt_table`)
WHERE content_type = 'application/pdf';

结果表

文本分析、摘要和其他文档分析示例

当您从文档中提取文本后，您可以通过几种方式进行文档分析：

使用 BigQuery ML 进行文本分析： BigQuery ML 支持以多种方式训练和配置文本模型。例如，您可以使用 BigQuery ML 来识别客户支持电话中的情绪，或者将产品反馈分类到不同的类别中。是Python用户，还可以使用BigQuery DataFrames进行pandas和scikit-learn类似的API进行文本分析。
使用PaLM 2 LLM对文档进行摘要： BigQuery具有ML.GENERATE_TEXT函数，调用PaLM 2模型生成文本，可用于对文档进行摘要。例如，您可以使用Document AI提取客户反馈，并使用PaLM 2对文档进行摘要，全部通过BigQuery SQL。
将文档元数据与存储在 BigQuery 表中的其他格式化数据进行合并：这使您可以将格式化和非格式化数据结合在一起，以实现更复杂的示例。例如，您可以从在线评论中获取的反馈中识别出顾客高终身价值（CLTV）的顾客，或者从顾客反馈中列出的最受欢迎的产品特性。

// Example of document summarization using PaLM 2
SELECT
  ml_generate_text_result['predictions'][0]['content'] AS generated_text,
  ml_generate_text_result['predictions'][0]['safetyAttributes']
    AS safety_attributes,
  * EXCEPT (ml_generate_text_result)
FROM
  ML.GENERATE_TEXT(
    MODEL `my_dataset.llm_model`,
    (
      SELECT
        CONCAT(
          'Summarize the following text: ',customer_feedback) AS prompt,
        *
      FROM ML.PROCESS_DOCUMENT(
       MODEL `my_dataset.customer_feedback_extractor`,
       TABLE `my_dataset.customer_feecback_documents`)
    ),
    STRUCT(
      0.2 AS temperature,
      1024 AS max_output_tokens));

实现搜索和生成式AI示例

得益于 BigQuery 的搜索和索引功能的支持，可以实现强大的搜索功能。一旦您从文档中提取了重构文本，您就可以构建针对“大海捞针”查询进行优化的索引。

这种集成还有助于解锁新的生成LLM应用，比如执行文本文件处理以进行隐私过滤、内容安全检查以及使用SQL和自定义文档AI模型进行标记分块。结合提取的文本与其他元数据，简化了对训练语言料库的策划，对于大型语言模型来说是简单的。

另外，您正在构建基于 BigQuery 嵌入生成和支持索引管理功能基础的受监管企业数据的 LLM 示例。通过索引与 Vertex AI 同步生成，您可以实现检索增强场景，从而获得更流畅的 AI 体验！

如何开始？

以上功能现已提供预览版，您可以轻松地在 BigQuery 中为文档 AI 的自定义提取器创建远程模型，并使用它们来进行规模化的文档分析和生成式 AI 训练。

BigQuery 与 Doc AI 集成：开启数据驱动洞察和创新的新时代！

统一、受管控的数据到AI体验

文本分析、摘要和其他文档分析示例

实现搜索和生成式AI示例

如何开始？

CloudAce

引用和评论

AI驱动医疗健康变革：智能代理、增强搜索与关键平台深度解读

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

被 Manus 带火的 MCP 是什么｜一文看懂

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！