turbopuffer:对象存储上的快速搜索

主要观点:2022 年帮助 Readwise 时发现向量搜索成本高,受此启发决定构建新型搜索引擎 turbopuffer,其结合成本效益与高性能,利用对象存储和智能缓存可轻松扩展至数十亿向量和数百万租户/命名空间,与传统搜索引擎相比在成本和性能上有显著优势,已被多个客户采用,如 Cursor、Suno 等,目前能处理大量文档和查询。
关键信息

  • 2022 年 Readwise 为关系型数据库每月付费约 5k,向量搜索需 20k+每月,因成本搁置期望功能。
  • 现有搜索引擎存储架构与搜索性能和成本不匹配,可通过对象存储和缓存改善。
  • turbopuffer 基于对象存储原生数据库,无关键路径依赖,多租户和分片保证可靠性,存储引擎精心处理对象存储往返以优化冷延迟。
  • 第一个大客户 Cursor 迁移到 turbopuffer 后成本降 10 倍,冷暖和热延迟良好,且不存储明文代码。
  • turbopuffer 还为 Suno、Dot、Shapes 等提供服务,目前能处理 500B+文档、10M+写/s 和 10K+查询/s。
    重要细节
  • 介绍了五种常见数据库的特点和用途,如缓存数据库 Redis、Memcached,关系型数据库 MySQL、Postgres,搜索数据库 ElasticSearch、向量数据库等。
  • 给出了不同存储架构的成本对比,如 RAM + 3x SSD、RAM Cache + 3x SSD、3x SSD、S3 + SSD Cache、S3 等。
  • 详细说明了 turbopuffer 的架构和工作原理,包括存储引擎、查询规划器等如何协同工作以优化性能。
  • 列举了 turbopuffer 的客户案例和相关数据,如 Cursor 管理数十亿向量等。
阅读 162
0 条评论