BBQvec:一个可扩展的向量搜索库

主要观点:向量搜索是当今 AI 中较流行的技术,Daxe 正在构建结构化语义搜索,其团队利用多领域经验创建新工具。Daxe 的向量索引库 BBQvec 基于新算法实现,能处理数十亿向量,具有低索引构建时间等优势,且开源并 Apache 许可。

关键信息

  • 向量搜索目标是找到最相关向量,近似最近邻算法为此目标服务。
  • Daxe 团队来自多知名机构,注重 AI 主权和本地数据掌控。
  • BBQvec 基于随机选择正交基集等步骤实现,能动态调整向量子查询开销。
  • 索引创建和查询时参数简单,如向量维度、量化策略、基集数量等。
  • 测试在不同配置下进行,BBQvec 在索引构建时间上有优势,虽在某些召回率等指标上不是最优,但性能尚可。

重要细节

  • 城市选举导致投票区随机重绘,类似向量空间的变化,Annoy 算法是 BBQvec 的灵感来源。
  • BBQvec 存储向量时量化并以 ID 键值保存,查询时找到最大组件索引等。
  • 测试在 EPYC 7402 和 AWS r6i.16xlarge 上进行,Go 包和 Rust crate 性能不同。
  • 给出了 nytimes-256-angular 和 glove-100-angular 数据集的测试图。
  • 鼓励用户使用 BBQvec 并参与相关活动。
阅读 10
0 条评论