在 SysOM 可观测体系建设第一篇文章中,我们介绍了 CPU 侧的可观测体系及 livetrace 架构,也熟悉了 SysOM 的整体架构。本文将介绍在 AI 大浪潮下,面向 AI 的 SysOM 做的事情:
1、AI for system:提升 SysOM 平台的系统诊断能力、对客服务能力。
2、System for AI:如何通过 SysOM 帮助分析训练和推理过程中的性能问题、故障等。
AI 可观测体系简介
SysOM 的 AI 可观测体系,主要是动态注入的 GPU Profiling 技术,采集 AI 作业运行过程中的算子、调度和内核函数等信息,进行综合分析。这一方法实现了零侵入、灵活且低开销的 AI 作业观测,帮助用户深入了解和优化 AI 任务的性能。这些信息能够帮助开发者和运维人员实时监控和分析 AI 作业的运行状态,及时发现并解决性能瓶颈,从而提升整体效率和可靠性。
AI 可观测功能特性
AI Infra 观测总体支持以下 4 个特性:
- 应用(app)和任务观测(job)的全局观测、CPU 和 GPU 性能问题分析(已经上线)。
- 异常告警:GPU 利用率和分配率,资源合理使用建议。
- 链路追踪:支持 CPU 和 GPU 的链路追踪、分布式存储、rdma 网络链路追踪。
- 故障发现和预测、定界定位:CPU 和 GPU 故障监控与定位。
最终围绕可观测的四大支柱进行分析,总体输出形式为:指标、持续剖析、持续追踪、日志。
指标
以监控大盘,呈现 CPU 和 GPU 相关指标,主要包含如下:
- 大模型相关监控,包含两方面:系统监控(如 GPU、CPU、MEM、网络流量等指标监控)、模型训练与推理相关监控:如 loss/accuracy 趋势监控。以及worker级别 的 CPU、MEM、磁盘、网络等系统资源监控;GPU监控指标除了基本的资源及利用率外,会覆盖 GPU 异常事件、多机多卡通信等相关指标。
日志
日志以告警形式输出,如 GPU 故障上报、系统资源等异常告警,模型训练推理数据告警,包括更深层次的基于数据加工进行故障预测。
持续剖析
CPU 以及 GPU Continus Profiling,提供 AI 应用在 CPU 到 GPU 之间的代码级追踪、调用链路热点火焰图的融合展示,以及提供AI作业内存消耗、内存带宽热点火焰图。
追踪
聚焦 AI 作业在每次资源调用之间的延迟分析,提供训练推理作业,在 CPU调用路径上如 CUDA runtime 的延迟分析、GPU Kernel 延迟分析。以及更深层次的在一次 LLM 服务调用全生命周期的链路可视化分析以及根因定位。
AI 可观测功能介绍
SysOM AI 观测工具现已全面集成至龙蜥社区理事长单位阿里云操作系统的控制台界面,实现了无缝融合。这一整合不仅提升了系统的可观测性和智能化水平,还为用户提供了高效的数据分析和故障预测功能,显著增强了运维效率和业务稳定性。
该功能位于<操作系统控制台> -> <系统观测> -> <AI Infra 观测>菜单中。
功能接口入参说明
AI Infra 可观测共有一下 5 个入参数:
实例 ID:选择该用户账号下以纳管的实例 ID,注意该实例上应有 GPU 和正在运行的 AI 作业。
- eg:i-bp164ns76pzirxxxxxx
AI 作业 PID:与“AI 作业进程名”选择一个填写即可,支持同时分析多个 AI 进程,pid 之间以逗号分隔。
- eg1:10374
- eg2:6584,10442,10539
AI 作业进程名:与“AI 作业 PID ”选择一个填写即可,支持同时分析多个 AI 进程,进程名之间以逗号分隔。
- eg1:py_test
- eg2:ai_test1,py_analysis,py_test
- 分析模式:目前只支持 Duration 模式分析。
若参数不符合要求,页面会有相应提示。
功能接口执行说明在分析参数填写完毕后,点击“开始分析”按钮便可以发起 AI 作业分析。若缺少参数,页面会弹窗提示。
发起 AI 作业分析后,控制台会在分析记录页面增加一条我们发起过的分析的记录,其中有"分析时间"、"分析时间"、"实例 ID/名称"、"分析参数"、"分析状态"和"操作"。
功能结果说明
在分析完成后,我们点击"查看报告"按钮会跳转到"分析总揽"页面。诊断报告页面展示了 4 个部分:
- "分析建议"-- 本次 AI 作业分析的结论概况。
- "CPU/GPU Tracing 分析"-- 设备基础信息、GPU 利用率、GPU kernel 函数调用时间统计。
- "GPU Kernel 分析"-- Tensor Cores 使用时间统计、GPU 内核函数调用时间统计图、GPU 内核函数调用时间统计表。
- "CPU/GPU Tracing 分析"-- 进程函数调用关系热点图。
CPU 和 GPU 融合分析
AI 火焰图
我们正在积极推进的一项重要功能是 CPU 和 GPU 的融合火焰图。其核心工作机制是将 GPU 核函数与 CPU 进程调用栈进行匹配和融合,共同展示在一张火焰图上。图中带有“GPU:”前缀的条目代表 GPU 核函数,火焰图方格的宽度表示核函数执行的时间长度,单位为纳秒。这种融合火焰图提供了更全面的系统性能视图,有助于深入理解 CPU 和 GPU 之间的交互和资源分配情况。
总结和展望
SysOM AI 可观测体系以其出色的技术优势,为 AI 系统的性能监控与优化提供了强有力的支持。首先,其零侵入性设计确保在不修改代码、不干扰业务运行的前提下实现全面监控,极大降低了部署成本和系统开销。其次,体系具备灵活且低开销的特点,支持多种数据采集模式和智能采样技术,适应不同场景需求,同时显著减少资源消耗。此外,其界面简洁易上手,通过直观的布局和交互式引导,降低了用户学习成本;而强大的数据可视化能力则将复杂运行状态转化为清晰图表,助力快速定位问题。
特别值得一提的是,SysOM 创新推出的 CPU 和 GPU 融合火焰图(AI 火焰图),实现了跨硬件的统一分析,精准捕捉任务切换与资源利用率变化,结合智能化异常检测,大幅提升性能调优效率。
随着 AI 需求的快速增长,异构计算和分布式架构的普及使得系统复杂度激增,对 AI 可观测的需求也日益迫切。未来,SysOM AI 可观测体系将在这一趋势中发挥更大价值,为企业提供更高效、更智能的运维解决方案。
eBPF 技术作为可观测技术的必备技能之一!最后,为大家推荐一本业内首本系统性穿透 Linux 内核观测技术指南-《深入理解 eBPF 与可观测性》,由龙蜥社区多位资深专家历时两年联袂打造, 是洞悉 Linux 系统的必备武器。欢迎感兴趣的小伙伴可点击蓝字了解详情。
—— 完 ——
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。