关于linux系统新能问题排查杂记

linux进程状态

linux2.6以后的内核，进程一般存在7种基础状态：D-不可中断随眠、R-可执行、S-可中断睡眠、T-暂停态、t-跟踪态、X-死亡态、Z-僵尸态。

D(TASK_UNINTERRUPTIBLE)，不可中断睡眠态。位于这种状态的进程处于睡眠中，并且不允许被其他进程或中断(异步信号)打断。因此这种状态的进程，是无法使用kill -9杀死的(kill也是一种信号)，除非重启系统(没错，就是这么头硬)。不过这种状态一般由I/O等待(比如磁盘I/O、网络I/O、外设I/O等)引起，出现时间非常短暂，大多很难被PS或者TOP命令捕获(除非I/O HANG死)。SLEEP态进程不会占用任何CPU资源。
R (TASK_RUNNING)，可执行态。这种状态的进程都位于CPU的可执行队列中，正在运行或者正在等待运行，即不是在上班就是在上班的路上。
S (TASK_INTERRUPTIBLE)，可中断睡眠态。不同于D，这种状态的进程虽然也处于睡眠中，但是是允许被中断的。这种进程一般在等待某事件的发生（比如socket连接、信号量等），而被挂起。一旦这些时间完成，进程将被唤醒转为R态。如果不在高负载时期，系统中大部分进程都处于S态。SLEEP态进程不会占用任何CPU资源。
T&t (__TASK_STOPPED & __TASK_TRACED)，暂停or跟踪态。这种两种状态的进程都处于运行停止的状态。不同之处是暂停态一般由于收到SIGSTOP、SIGTSTP、SIGTTIN、SIGTTOUT四种信号被停止，而跟踪态是由于进程被另一个进程跟踪引起(比如gdb断点）。暂停态进程会释放所有占用资源。
Z (EXIT_ZOMBIE), 僵尸态。这种状态的进程实际上已经结束了，但是父进程还没有回收它的资源（比如进程的描述符、PID等）。僵尸态进程会释放除进程入口之外的所有资源。
X (EXIT_DEAD), 死亡态。进程的真正结束态，这种状态一般在正常系统中捕获不到

Load Average & CPU使用率

在linux中，Load Average计算方式如下：

LoadAverage = calc_load(TASK_RUNNING + TASK_UNINTERRUPTIBLE, n)

不可中断睡眠态的进程(TASK_UNINTERRUTED)一般都在进行I/O等待，比如磁盘、网络或者其他外设等待。由此我们可以看出，Load Average在linux中体现的是整个系统负载，即CPU负载 + Disk负载 + 网络负载 + 其他外设负载。

CPU使用率

CPU的时间分片一般可分为4大类：

用户进程运行时间 - User Time
系统内核运行时间 - System Time
空闲时间 - Idle Time
被强占时间 - Steal Time (`

Steal time is the percentage of time a virtual CPU waits for a real CPU while the hypervisor is servicing another virtual processor) 虚拟CPU时间
除了Idle Time外，其他时间CPU都处于工作运行状态。

通常而言，我们泛指的整体CPU使用率为User Time 和 Systime占比之和(例如tsar中CPU util)，即：CPUutil = (UserTime + SystemTime)/(UserTime + SystemTime + IdleTime + StealTime)

为了便于定位问题，大多数性能统计工具都将这4类时间片进一步细化成了8类，如下为TOP对CPU时间片的分类。

us：用户进程空间中未改变过优先级的进程占用CPU百分比
sy：内核空间占用CPU百分比
ni：用户进程空间内改变过优先级的进程占用CPU百分比
id：空闲时间百分比
wa：空闲&等待I/O的时间百分比
hi：硬件中断时间百分比
si：软件中断时间百分比
st：虚拟化时被其余VM窃取时间百分比

这8类分片中，除wa和id外，其余分片CPU都处于工作态。

Load高 & CPU高

这是我们最常遇到的一类情况，即load上涨是CPU负载上升导致。根据CPU具体资源分配表现，可分为以下几类：

CPU sys高

这种情况CPU主要开销在于系统内核，可进一步查看上下文切换情况。

如果非自愿上下文切换较多，说明CPU抢占较为激烈，大量进程由于时间片已到等原因，被系统强制调度，进而发生的上下文切换。
如果自愿上下文切换较多，说明可能存在I/O、内存等系统资源瓶颈，大量进程无法获取所需资源，导致的上下文切换。

CPU si高

这种情况CPU大量消耗在软中断，可进一步查看软中断类型。一般而言，网络I/O或者线程调度引起软中断最为常见：

NET_TX & NET_RX。NET_TX是发送网络数据包的软中断，NET_RX是接收网络数据包的软中断，这两种类型的软中断较高时，系统存在网络I/O瓶颈可能性较大。
SCHED。SCHED为进程调度以及负载均衡引起的中断，这种中断出现较多时，系统存在较多进程切换，一般与非自愿上下文切换高同时出现，可能存在CPU瓶颈。

CPU us高

这种情况说明资源主要消耗在应用进程，可能引发的原因有以下几类：

死循环或代码中存在CPU密集计算。这种情况多核CPU us会同时上涨。
内存问题，导致大量FULLGC，阻塞线程。这种情况一般只有一核CPU us上涨。
资源等待造成线程池满，连带引发CPU上涨。这种情况下，线程池满等异常会同时出现。

Load高 & CPU低

这种情况出现的根本原因在于不可中断睡眠态(TASK_UNINTERRUPTIBLE)进程数较多，即CPU负载不高，但I/O负载较高。可进一步定位是磁盘I/O还是网络I/O导致。

关于linux系统新能问题排查杂记

linux进程状态

Load Average & CPU使用率

CPU使用率

Load高 & CPU高

CPU sys高

CPU si高

CPU us高

Load高 & CPU低

排查策略

張怼怼

引用和评论

javascript对象创建模式

「10秒发现，5分钟定位」- 阿里云EMAS应用监控引领全链路智能监控新时代