Google BigQuery 引入向量搜索功能
Google 最近宣布 BigQuery 已支持向量搜索,这一新功能为数据和 AI 应用场景(如语义搜索、相似性检测和基于大语言模型(LLM)的检索增强生成(RAG))提供了必要的向量相似性搜索能力。
功能特点
- 近似最近邻搜索:BigQuery 在预览模式下提供了近似最近邻搜索功能,通过 VECTOR\_SEARCH 函数实现,并依赖索引优化查找和距离计算,以识别匹配的嵌入向量。
- 自动更新索引:BigQuery 的向量索引会自动更新,首个实现的索引类型(IVF)结合了聚类模型和倒排行定位器,形成两段式索引。
- 多源嵌入向量支持:向量搜索通常在高维数值向量(即嵌入向量)上进行,这些向量可以来自文本、图像或视频等多种来源,并包含实体的语义表示。
开发者观点
Google 的工程负责人 Omid Fatemieh 和产品负责人 Michael Kilberry 表示,BigQuery 的向量搜索功能通过索引优化查找和距离计算,能够高效识别匹配的嵌入向量。此外,BigQuery 的语法与文本搜索功能类似,便于将向量搜索操作与其他 SQL 原语结合。
Opera 的高级产品经理 Max Ostapenko 对 BigQuery 的向量搜索功能表示赞赏,认为它扩展了处理文本数据的方法,尤其是在与 Vertex AI 结合使用时。
使用案例
Google 提供了如何使用向量搜索进行语义搜索和检索增强生成的教程,并以 Google Patents 公共数据集为例,展示了三种不同的使用场景:
- 使用预生成嵌入向量进行专利搜索。
- 使用 BigQuery 生成嵌入向量进行专利搜索。
- 通过与生成模型集成实现 RAG。
扩展功能
BigQuery 的高级功能允许用户将上述搜索案例扩展为完整的 RAG 流程。具体来说,用户可以使用 VECTOR\_SEARCH 查询的输出作为上下文,通过 BigQuery 的 ML.GENERATE\_TEXT 函数调用 Google 的自然语言基础模型。
其他相关公告
除了向量搜索,Google 还宣布 Gemini 1.0 Pro 已通过 Vertex AI 向 BigQuery 客户开放。此外,BigQuery 还新增了与 Vertex AI 的集成,支持 文本 和 语音 处理。
计费方式
CREATE VECTOR INDEX 语句和 VECTOR\_SEARCH 功能的计费基于 BigQuery 计算定价。对于 CREATE VECTOR INDEX 语句,仅计算索引列的处理字节数。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。