主要观点:
- 介绍 DuckDB 的新
vss扩展,支持 HNSW 索引以加速向量相似性搜索。 - 最初添加
ARRAY数据类型是为优化列表操作和提高与 Apache Arrow 的互操作性。 vss扩展表面上是一个较小的 DuckDB 扩展,仅提供新的索引类型HNSW。vss基于usearch库,性能表现不错,但目前存在一些限制。- 限制包括只能在内存数据库中创建
HNSW索引、运行时需内存足够、仅支持FLOAT类型等。 - 鼓励用户查看
vss扩展文档以了解更多信息,欢迎贡献者参与。
关键信息:
ARRAY数据类型用于存储固定大小列表,补充LIST数据类型。- 添加了用于
ARRAY类型的距离度量函数。 vss扩展提供HNSW索引,用于加速向量相似性搜索查询。HNSW索引可通过CREATE INDEX创建,可指定距离度量参数。vss扩展基于usearch库,目前仅使用部分功能。- 限制方面,
HNSW索引在内存数据库中创建,运行时需内存足够,仅支持FLOAT类型等。
重要细节:
- 在创建
HNSW索引时,若未设置hnsw_enable_experimental_persistence配置参数,在磁盘数据库中创建会出错,设置后会在内存和磁盘中持久化。 - 目前
HNSW索引在运行时需完全放入 RAM,且不受memory_limit配置参数限制。 - 可通过
INSTALL vss; LOAD vss在 DuckDB v0.10.2 上安装vss扩展。 - 此工作由 DuckDB Labs 客户赞助,欢迎有兴趣的用户联系或贡献。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。