编者按:在服务器系统运行中,常见的问题包括服务器宕机、系统夯机、应用运行错误、性能抖动等,其中抖动问题是非常典型的容易出现且很难分析解决的问题。本文通过深入理解 Linux 应用运行过程的抖动原因,来协助系统及应用进行优化。同时介绍怎么 SysAK 工具对问题进行监控和诊断。整理自龙蜥大讲堂第 25 期,精彩分享视频回放已上传至龙蜥官网(首页-动态-视频),欢迎查看!
再精良的系统也不是完美的,总会遇到不可预期的问题。在服务器系统运行中,常见的问题包括服务器宕机、系统夯机、应用运行错误、性能抖动等,其中抖动问题是非常典型的容易出现且很难分析解决的问题,其主要表现在瞬时发生、复现概率低,对业务运行产生比较大的影响的同时缺乏有效的分析手段。常规的运维解决思路之一就是增加各种各样的系统监控,但受限于监控的粒度和专业度,这些监控手段一般只能从系统运行的资源状态来推测出可用的资源利用率是否达到瓶颈等等,很难能从根本上提供有效的解决手段。
针对这类问题,SysAK 从系统底层的抖动根因出发,覆盖了影响应用抖动的常见干扰和瓶颈因素,开发了一系列工具,包括系统及应用的健康状态监控,以及对出现的问题进行根因诊断。
具体分享包括有以下几部分:
1、介绍应用常见抖动现象。
2、从 OS 原理角度去分析抖动的原因。
3、利用 SysAK 工具集分析问题。
4、常见抖动问题的处理建议。
对干扰和瓶颈的分类进行了详细介绍。
SysAK 本身是一个比较全的运维工具集,针对几个典型的抖动问题,分享了一些工具的使用场景和实际案例效果。
最后,根据作者的经验,也对一些常见抖动问题的提出了一些建议的解决方法,欢迎观看完整视频回放了解。
关于视频回放和课件获取
【视频回放】:视频回访已上传至龙蜥官网:https://openanolis.cn/video 。
【PPT课件获取】:关注微信公众号(OpenAnolis),回复“龙蜥课件”即可获取。有任何疑问请随时咨询龙蜥助手—小龙(微信:openanolis_assis)。
—— 完 ——
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。