人工智能新时代下,数字化转型加速,同时产生大量文本和其他文档数据,这些数据蕴藏着巨大的洞察潜力,并能驱动创新的生成式AI使用案例。
BigQuery 与文档 AI 的集成,让您可以轻松地从文档数据中提取分析,并构建新的大型语言模型(LLM)应用程序。
BigQuery 客户现在可以创建由 Google 的尖端基础模型驱动的文档 AI 自定义提取器,他们可以根据自己的文档和元数据进行定制。这些定制模型可以从 BigQuery 中调用,以安全、受管控的方式从文档中提取中提取数据,使用SQL的简单性和增强性。
统一、受管控的数据到AI体验
您可以在 Document AI Workbench 中通过三个步骤构建自定义提取器:
- 定义您需要从文档中提取的数据。这被称为文档架构,存储在每个自定义提取器的版本中,并且可从 BigQuery 访问
- 提供带注释的附加文档作为提取的样本
* 根据 Document AI 提供的基础模型,对自定义提取器进行训练
除了需要手动训练的自定义提取器外,Document AI 还提供了用于费用、收政府、发票、税表、身份证等多种场景的即插即用提取器,可在处理器库中直接使用,消耗执行上述步骤。
然后,一旦构建器准备就绪,您就可以在 BigQuery Studio 中使用 SQL 分析文档,具体包括以下四个步骤:
- 使用 SQL 提取器注册一个 BigQuery 远程模型。该模型能够理解文档架构(上面创建的),调用自定义提取器并解析结果。
- 使用 SQL 为存储在 Cloud Storage 中的创建文档对象表。您可以通过在表中管理非格式化数据设置行级访问策略,从而限制用户对特定文档的访问,并限制相应的 AI 对隐私和安全的影响。
- 使用 ML.PROCESS_DOCUMENT 函数在对象表上提取相关字段,通过对 API 端点进行推断调用。您还可以在函数之外使用“WHERE”子句来过滤提取的文档。该函数返回一个格式化表,其中每个一列都是被提取的字段。
- 将提取的数据与其他BigQuery表进行连接,结合重构和非重构数据,生成业务价值。
以下示例展示了用户体验:
# Show a screenshot of curating Doc AI custom extractor in Workbench
# Create an object table in BigQuery that maps to the document files stored in Cloud Storage.
CREATE OR REPLACE EXTERNAL TABLE `my_dataset.receipt_table`
WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
object_metadata = 'SIMPLE',
uris = ['gs://my_bucket/path/*'],
metadata_cache_mode= 'AUTOMATIC',
max_staleness= INTERVAL 1 HOUR
);
# Create a remote model to register your Doc AI processor in BigQuery.
CREATE OR REPLACE MODEL `my_dataset.invoice_parser`
REMOTE WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
remote_service_type = 'CLOUD_AI_DOCUMENT_V1',
document_processor='projects/…/locations/us/processors/…/processorVersions/pretrained-invoice-v1.3-2022-07-15'
);
# Invoke the registered model over the object table to parse PDF expense receipts
SELECT uri, total_amount, invoice_date
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.invoice_parser`,
TABLE `my_dataset.receipt_table`)
WHERE content_type = 'application/pdf';
结果表
文本分析、摘要和其他文档分析示例
当您从文档中提取文本后,您可以通过几种方式进行文档分析:
- 使用 BigQuery ML 进行文本分析: BigQuery ML 支持以多种方式训练和配置文本模型。例如,您可以使用 BigQuery ML 来识别客户支持电话中的情绪,或者将产品反馈分类到不同的类别中。是Python用户,还可以使用BigQuery DataFrames进行pandas和scikit-learn类似的API进行文本分析。
- 使用PaLM 2 LLM对文档进行摘要: BigQuery具有ML.GENERATE_TEXT函数,调用PaLM 2模型生成文本,可用于对文档进行摘要。例如,您可以使用Document AI提取客户反馈,并使用PaLM 2对文档进行摘要,全部通过BigQuery SQL。
- 将文档元数据与存储在 BigQuery 表中的其他格式化数据进行合并:这使您可以将格式化和非格式化数据结合在一起,以实现更复杂的示例。例如,您可以从在线评论中获取的反馈中识别出顾客高终身价值(CLTV)的顾客,或者从顾客反馈中列出的最受欢迎的产品特性。
// Example of document summarization using PaLM 2
SELECT
ml_generate_text_result['predictions'][0]['content'] AS generated_text,
ml_generate_text_result['predictions'][0]['safetyAttributes']
AS safety_attributes,
* EXCEPT (ml_generate_text_result)
FROM
ML.GENERATE_TEXT(
MODEL `my_dataset.llm_model`,
(
SELECT
CONCAT(
'Summarize the following text: ',customer_feedback) AS prompt,
*
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.customer_feedback_extractor`,
TABLE `my_dataset.customer_feecback_documents`)
),
STRUCT(
0.2 AS temperature,
1024 AS max_output_tokens));
实现搜索和生成式AI示例
得益于 BigQuery 的搜索和索引功能的支持,可以实现强大的搜索功能。一旦您从文档中提取了重构文本,您就可以构建针对“大海捞针”查询进行优化的索引。
这种集成还有助于解锁新的生成LLM应用,比如执行文本文件处理以进行隐私过滤、内容安全检查以及使用SQL和自定义文档AI模型进行标记分块。结合提取的文本与其他元数据,简化了对训练语言料库的策划,对于大型语言模型来说是简单的。
另外,您正在构建基于 BigQuery 嵌入生成和支持索引管理功能基础的受监管企业数据的 LLM 示例。通过索引与 Vertex AI 同步生成,您可以实现检索增强场景,从而获得更流畅的 AI 体验!
如何开始?
以上功能现已提供预览版,您可以轻松地在 BigQuery 中为文档 AI 的自定义提取器创建远程模型,并使用它们来进行规模化的文档分析和生成式 AI 训练。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。