在 Dropbox 规模下选择用于语义搜索的模型

主要观点:Nautilus 是 Dropbox 的搜索引擎,存在一些局限性,如对用户意图理解有限、多语言搜索受限等。语义搜索旨在基于意义和意图检索信息,超越简单关键词匹配,Dropbox 现支持语义搜索并取得良好效果。
关键信息

  • 2018 年引入的 Nautilus 采用常规关键词搜索,有局限性,如搜索“就业合同”可能忽略相关文件。
  • 为减轻局限考虑多种技术,引入语义搜索,能更好理解用户查询与文档内容关系,实现跨语言搜索。
  • 语义搜索依赖向量搜索技术,将内容转化为嵌入向量,实现更灵活和上下文感知的检索。
  • 对 11 个模型进行评估,选定 multilingual-e5-large 为最佳模型,在自定义数据集上表现优秀。
  • 把 multilingual-e5-large 投入生产时需考虑存储和计算资源,采用特定量化格式和双嵌入策略。
    重要细节
  • Dropbox 内部 2024 年初为用户推出语义搜索,5 月对部分 Pro 和 Essential 用户进行实验,8 月向所有 Pro 和 Essential 用户开放,2025 年初向 Business 用户推出。
  • 对 Massive Text Embedding Benchmark 进行定制,创建自定义数据集用于评估模型,还扩展到多语言评估。
  • 评估主要集中在重排序和检索任务,其他 Dropbox 团队可利用 MTEB 评估其他任务。
  • 致谢参与该项目的人员。
阅读 6
0 条评论