减少检索增强生成（RAG）语义缓存中的误报：一个银行案例研究

主要观点：自然语言成为与软件交互的标准界面，系统需处理大量语义相同 phrasing 不同的用户查询，语义缓存可提高效率，文中通过金融服务 FAQ 系统的实践，从语义缓存失败到生产成功，阐述了缓存设计在减少假阳性方面比模型优化更有效，还提出了多层面的架构路线图以进一步降低假阳性率，且这些原则适用于任何依赖 RAG 语义缓存的领域。

关键信息：

语义缓存是基于检索增强生成（RAG）的技术，存储查询和响应的向量嵌入，基于意义和意图操作，可提高响应速度、输出质量和减少冗余调用。
实验通过 1000 个真实银行查询测试了 7 种双编码器模型，包括不同架构和规模的模型，设计了多种实验模式和数据集，以评估语义缓存性能。
实验发现零样本基线存在“假阳性危机”，调整相似度阈值效果有限，预加载缓存和引入缓存质量控制可显著降低假阳性率，最终将假阳性率从 99%降低到 3.8%。
生产部署中观察到纯语义相似性系统的失败模式，包括语义粒度、意图分类和上下文保留失败等，提出了多层面的架构路线图来解决剩余误差类别。

重要细节：

实验中系统架构采用查询到查询的语义缓存架构，在不同缓存模式（增量模式和预缓存模式）下进行测试，使用生产级基础设施和大规模数据集。
模型选择策略涵盖紧凑模型、大规模模型和专用模型，比较了不同规模和表示深度的模型性能。
各个实验分别测试了零样本基线、相似度阈值优化、预加载缓存和缓存质量控制等对假阳性率的影响，以及不同模型在各种情况下的性能表现。
多层面架构路线图包括高级查询预处理、精细调整域模型、多向量架构、交叉编码器重新排序和域知识集成等方面。