Intuit 使用生成式 AI 监控和调试 Kubernetes 集群的实践
Intuit 最近分享了如何通过生成式 AI(GenAI)实验来应对监控和调试 Kubernetes 集群的复杂性。这些实验旨在简化问题的检测、调试和修复流程。
背景与挑战
Intuit 的 Kubernetes 服务平台规模庞大且复杂,支持超过 325 个 Kubernetes 集群和 7,000 多个应用程序与服务。随着应用程序的快速增长和集群的频繁变更,工程师们在维护集群健康和减少告警疲劳方面面临巨大挑战。告警数据源繁多,工程师们常常难以快速检测和修复问题。
改进的三个关键领域
Intuit 团队确定了三个需要改进的关键领域:检测、调试和修复。
检测:
- Intuit 实施了名为“集群黄金信号”(Cluster Golden Signals)的系统,该概念借鉴了服务黄金信号的理念。该系统通过过滤噪音,聚焦关键信号,提供集群健康的统一视图,从而减少告警疲劳。
- 通过 Prometheus 表达式,核心组件指标被聚合到一个仪表板中,生成健康状态指标(健康、降级或严重),帮助工程师快速定位问题集群,并判断问题是服务相关还是平台相关,从而降低平均检测时间(MTTD)。
调试:
- Intuit 集成了开源工具 K8sGPT,该工具扫描 Kubernetes 集群,利用站点可靠性工程师(SRE)编码的知识进行问题诊断和分类。
- K8sGPT 使用资源特定的分析器从集群中提取相关错误信息,并结合 AI 洞察力进行丰富。通过将 Prometheus 指标与黄金信号结合,K8sGPT 能够提示公共模型搜索错误的更多细节,从而提供更多的上下文信息,帮助识别潜在的根本原因。
修复:
- K8sGPT 集成了来自 OpenAI、Google 和 Microsoft 等公司的公共大型语言模型(LLM),以建议 Kubernetes 特定错误的修复步骤。然而,公共 LLM 缺乏对 Intuit 特定平台配置的上下文。
- 为了解决这一问题,Intuit 开发了专有的生成式 AI 操作系统(GenOS),该系统通过检索增强生成(RAG)技术,使用 Intuit 特定数据增强本地模型,从而提供更精准的修复建议。
K8sGPT 的现状与特性
- K8sGPT 是 CNCF 社区贡献排名前十的项目之一,首次于 2023 年 3 月提交,目前拥有 5.6K 星标和 88 位贡献者。
- 该工具支持多种模型,包括 OpenAI、Azure、Cohere、Amazon Bedrock、Google Gemini 以及本地模型,并可在 Windows、Mac 和 Linux 系统上通过 brew、RPM、DEB 或 APK 安装。
未来计划
Intuit 计划继续监控在减少平均检测时间(MTTD)和平均解决时间(MTTR)方面的进展,并探索生成式 AI 在其他领域的潜在应用,如流量管理和 Java 虚拟机调试。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。