主要观点:Nautilus 是 Dropbox 的搜索引擎,存在一些局限性,如对用户意图理解有限、多语言搜索受限等。语义搜索旨在基于意义和意图检索信息,超越简单关键词匹配,Dropbox 现支持语义搜索并取得良好效果。
关键信息:
- 2018 年引入的 Nautilus 采用常规关键词搜索,有局限性,如搜索“就业合同”可能忽略相关文件。
- 为减轻局限考虑多种技术,引入语义搜索,能更好理解用户查询与文档内容关系,实现跨语言搜索。
- 语义搜索依赖向量搜索技术,将内容转化为嵌入向量,实现更灵活和上下文感知的检索。
- 对 11 个模型进行评估,选定 multilingual-e5-large 为最佳模型,在自定义数据集上表现优秀。
- 把 multilingual-e5-large 投入生产时需考虑存储和计算资源,采用特定量化格式和双嵌入策略。
重要细节: - Dropbox 内部 2024 年初为用户推出语义搜索,5 月对部分 Pro 和 Essential 用户进行实验,8 月向所有 Pro 和 Essential 用户开放,2025 年初向 Business 用户推出。
- 对 Massive Text Embedding Benchmark 进行定制,创建自定义数据集用于评估模型,还扩展到多语言评估。
- 评估主要集中在重排序和检索任务,其他 Dropbox 团队可利用 MTEB 评估其他任务。
- 致谢参与该项目的人员。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。