RAG驱动的Copilot为Uber节省了13,000个工程小时

Uber推出AI驱动的值班助手Genie

Uber近期详细介绍了其开发的AI驱动值班助手Genie，旨在提高值班支持工程师的效率。Genie利用检索增强生成（RAG）技术，提供准确的实时响应，显著提升事件处理的速度和效果。

Genie的成效

自2023年9月推出以来，Genie对Uber的支持团队产生了显著影响。它已在154个Slack频道中回答了超过70,000个问题，节省了约13,000个工程小时，用户反馈的有用率为48.9%。

背景与动机

Uber的值班工程师经常花费大量时间回答重复性问题或查找分散的文档，导致用户难以独立找到答案，进而延长了响应时间并降低了工作效率。这些情况成为开发Genie的主要动机。

技术实现：检索增强生成（RAG）

Uber使用检索增强生成（RAG）技术来驱动Genie。RAG结合了信息检索系统和生成式AI模型的优势，能够生成准确且相关的响应。Uber利用现有知识源快速部署了Genie，避免了AI模型微调所需的大量示例数据。

数据来源与处理

Genie从Uber的内部知识库（如维基、Stack Overflow和工程文档）中提取数据。这些信息经过爬取后，使用OpenAI模型转换为向量嵌入，并存储在Uber自有的向量数据库Search In Action（SIA）中。Genie仅使用预先批准的数据源，避免敏感信息泄露。

架构与工作流程

当用户在Slack中提问时，查询会被转换为嵌入，Genie利用该嵌入在向量数据库中获取上下文相似的数据，然后将这些数据输入大语言模型（LLM），生成基于检索信息的准确响应。

用户反馈与性能优化

Uber通过实时用户反馈持续优化Genie的性能。用户在Genie回答后可以选择“已解决”、“有帮助”或“不相关”等选项提供反馈。这些反馈通过Slack插件收集，并使用Uber内部的数据流系统进行处理，最终发送到Hive表中进行分析。这一反馈循环使Uber能够跟踪Genie的有用性，并根据真实用户经验优化其响应。

性能评估与文档质量保证

Uber设计了自定义评估管道，评估幻觉率、响应相关性等指标。该管道处理历史数据，包括Slack元数据、用户反馈和Genie的先前响应，并通过LLM评分系统进行评分。此外，Uber还引入了文档评估流程，确保Genie使用的信息来源高质量。系统将爬取的知识库转换为结构化格式，每行代表一个文档，并通过LLM评估文档的清晰度、准确性和有用性，提供改进建议。

总结

Genie通过结合RAG技术和实时用户反馈，显著提升了Uber值班工程师的效率和响应速度。其架构设计、数据来源处理以及性能优化机制确保了系统的高效运行和持续改进。