主要观点:
- 介绍 DuckDB 的新
vss
扩展,支持 HNSW 索引以加速向量相似性搜索。 - 最初添加
ARRAY
数据类型是为优化列表操作和提高与 Apache Arrow 的互操作性。 vss
扩展表面上是一个较小的 DuckDB 扩展,仅提供新的索引类型HNSW
。vss
基于usearch
库,性能表现不错,但目前存在一些限制。- 限制包括只能在内存数据库中创建
HNSW
索引、运行时需内存足够、仅支持FLOAT
类型等。 - 鼓励用户查看
vss
扩展文档以了解更多信息,欢迎贡献者参与。
关键信息:
ARRAY
数据类型用于存储固定大小列表,补充LIST
数据类型。- 添加了用于
ARRAY
类型的距离度量函数。 vss
扩展提供HNSW
索引,用于加速向量相似性搜索查询。HNSW
索引可通过CREATE INDEX
创建,可指定距离度量参数。vss
扩展基于usearch
库,目前仅使用部分功能。- 限制方面,
HNSW
索引在内存数据库中创建,运行时需内存足够,仅支持FLOAT
类型等。
重要细节:
- 在创建
HNSW
索引时,若未设置hnsw_enable_experimental_persistence
配置参数,在磁盘数据库中创建会出错,设置后会在内存和磁盘中持久化。 - 目前
HNSW
索引在运行时需完全放入 RAM,且不受memory_limit
配置参数限制。 - 可通过
INSTALL vss; LOAD vss
在 DuckDB v0.10.2 上安装vss
扩展。 - 此工作由 DuckDB Labs 客户赞助,欢迎有兴趣的用户联系或贡献。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。