SPFresh:用于十亿规模向量搜索的增量原地更新

主要观点:近似最近邻搜索(ANNS)在多种应用中广泛使用,随着向量数据量不断增长,支持向量索引更新很重要,因高维性,识别单个新向量的正确邻居成本高,现有系统通过维护二级索引累积更新,定期全局重建主索引来合并更新,此方法搜索延迟和准确性波动大,资源消耗大且重建耗时。介绍 SPFresh 系统支持原地向量更新,其核心 LIRE 是轻量级增量再平衡协议,通过分割向量分区和重新分配附近分区的向量以适应数据分布变化,仅在分区边界重新分配向量实现低开销向量更新,在十亿规模向量索引且每日 1%向量更新率下,与现有技术相比,SPFresh 提供了更优的查询延迟和准确性,仅需 1%的 DRAM 和不到 10%的核心。
关键信息:作者包括 Yuming Xu 等多人;提交历史为 2024 年 10 月 18 日 v1 版本;相关论文地址为 https://arxiv.org/abs/2410.14452 等;主题为信息检索(cs.IR);评论为 SOSP 23
重要细节:介绍了 SPFresh 系统及其核心 LIRE 的工作原理和优势,通过与现有技术对比突出其性能特点,提及了相关的 DOI 等信息。

阅读 16
0 条评论