Meta 利用 AI 提升系统可靠性
Meta 最近分享了如何通过先进的调查工具(包括 AI 辅助的 Hawkeye)来提升系统可靠性。Hawkeye 是 Meta 开发的一个工具包,旨在增强机器学习(ML)产品监控、可观测性和可调试性。通过整合人工智能,Meta 开发了一个新的调查系统,结合了启发式检索和大语言模型(LLM)排序,以辅助根因分析。该系统在调查 Meta 的 web monorepo 相关问题时,初始阶段识别根因的准确率达到了 42%。
Hawkeye 的功能与作用
Hawkeye 是 Meta Prediction Robustness 计划的一部分,旨在推动创新工具和服务,确保依赖 ML 模型预测的 Meta 产品质量。它包括从挖掘根因到 UX 工作流的引导探索等功能,旨在增强 ML 产品的监控和可调试性。
新调查系统的工作原理
在像 Meta 这样的大型系统中调查问题非常复杂,尤其是在处理涉及多个团队和大量更改的单体仓库时。传统调查需要大量时间和精力来构建上下文并隔离根因。Meta 的新系统通过启发式方法(如代码所有权和运行时代码图)减少潜在原因的搜索空间。在缩小到几百个相关更改后,基于 LLM 的排序系统识别最可能的根因,最终集中在排名前五的更改上。
LLM 排序系统的细节
排序系统使用微调的 Llama 模型,采用结构化提示技术来处理上下文窗口限制,使其能够有效排序更改。回测显示,在 42% 的情况下,实际根因位于排名前五的建议中。
模型训练过程
训练 LLM 涉及使用 Meta 的历史调查数据微调 Llama 2 (7B) 模型,帮助模型学习遵循根因分析(RCA)指令。训练过程使用了 5,000 个指令调优示例的特别策划数据集,包括来自 Meta 检索器的 2-20 次更改的详细信息、已知根因以及调查开始时的信息(如标题和影响)。这个数据集使模型能够基于其与调查的相关性对潜在代码更改进行排序,并具有较高的置信度。
挑战与解决方案
Meta 的 AI 辅助调查工具旨在减少根因分析所需的时间和精力,但也存在错误建议的风险。为了解决这个问题,Meta 确保系统的结果可解释和可复现,并使用置信度测量来避免低置信度推荐。
其他市场上的 AI 辅助调查工具
- BigPanda Root Cause Analysis:AI 驱动的工具,通过分析数据快速识别 IT 系统中的问题根因,提供建议,并实时自动识别问题。
- ZDX AI-Powered Root Cause Analysis:利用 AI 和机器学习分析数据,提供修复建议,快速识别网络和应用程序中的问题。
- IBM Watson AIOps:AI 驱动的工具,分析数据以识别 IT 系统中的问题根因,提供修复建议,并实时自动识别问题。
- Skylar Automated Root Cause Analysis:使用机器学习自动化日志分析,处理数百万或数十亿的日志消息,快速识别问题根因。
未来计划
展望未来,Meta 计划扩展其 AI 系统的能力,可能使其能够自主执行工作流,甚至在潜在事件发生之前检测到它们,从而进一步增强系统可靠性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。