哔前哔言
- 始终践行费曼学习法
- 理解系统知识原理
- 掌握性能分析工具
- 多实践,多思考,多提问
- 仅记录个人的学习记录,欢迎指点纠正
1、进程状态
- R[Running/Runnable]:正在运行或正在等待运行的进程
- D[Disk Sleep]:不可中断状态睡眠,一般表示,进程正在跟硬件交互,并且交互过程中不允许被其他进程或中断打断
- Z[Zombie]僵尸进程,也就是该进程已结束,父进程未将其资源回收
- S[Interruptible Sleep]可中断状态睡眠,表示进程因等待某个事件而被系统挂起。当进程等待事件发生时,会被唤醒并进入R状态
- I[Idle]空闲状态,用在不可中断睡眠的内核线程上。D状态会导致平均负载升高,I状态的进程不会。
- T/t[Stopped/Traced]进程处于暂停或跟踪状态[跟踪状态--特殊暂停状态]
- X[Dead]进程已消亡,top/ps命令无法观察到消亡的进程
2、不可中断状态
进程正在硬件进行交互时
- 正常情况下:不可中断短时间内就会结束,此时短时的不可中断状态进程,我们一般可以忽略
- 系统/硬件发生故障:进程就会保持长久的不可中断状态,需要注意,系统是否发生I/O性能的问题
3、僵尸进程
- 正常情况下:父进程创建子进程,然后通过系统调用等待子进程结束,回收子进程资源,且子进程结束时,向父进程发送sigChld信号,父进程注册sigChld信号处理函数,异步回收资源
- 异常情况下:父进程没有处理子进程,或子进程执行快于父进程,就容易导致子进程变成僵尸进程
4、总结
4.1、大量不可中断进程和僵尸进程的处理方法:
- iowait 太高,导致平均负载升高,且负载达到系统cpu的个数
- 僵尸进程在不断增多
4.2、分析iowait升高的原因
- 用dstat 命令同时查看cpu和I/O对比情况,通过结果查看发现iowait 升高时,磁盘读请求升高
- 定位磁盘读的进程,使用top命令查看不可中断状态的进程PID
- 查看对应进程的磁盘读写情况,使用pidstat -d 查看I/O使用情况,发现处于不可中断状态的进程都没有进行磁盘读写
- 继续使用pidstat 命令,查看所有进程的I/O情况,可以定位到磁盘读写的进程
- 使用strace 查看进程的系统调用strace -p <pid>
- ps aux | grep <pid> 发现进程处于Z状态,已变成僵尸状态
- 若top 和pidstat 都不能找出问题,使用事件记录的动态追踪工具 perf record & perf report
4.3、僵尸进程
僵尸进程产生是因为父进程没有回收子进程的资源,所以可以通过使用pstree 查看父进程,然后查看父进程的源码检查
案例实践
1、运行案例应用
docker run --privileged --name=app -itd feisky/app:iowait
2、输入Ps命令,查看案例是否正常启动。命令:ps aux | grep /app
- S 可中断睡眠状态
- D 不可中断睡觉状态
- Ss+ ,其中,s表示这个进程是一个会话领导进程 ;+表示前台进程组
进程组:一组互相关联的进程,比如每个子进程都是父进程所在组的成员
会话:指共享同一个控制终端的一个或多个进程组
3、使用top命令,查看下进程情况
ioWait
pstat 1 10 #每1秒输出10组
top命令,观察D状态的进程
pidstat -d 输出I/O使用情况
所以,我们从 pidstat 的输出中拿到进程的 PID 号,比如 6082,然后在终端中运行 strace 命令,并用 -p 参数指定 PID 号:
$ strace -p 97741
strace: attach: ptrace(PTRACE_SEIZE, 97741``): Operation not permitted
这儿出现了一个奇怪的错误,strace 命令居然失败了,并且命令报出的错误是没有权限。
按理来说,我们所有操作都已经是以 root 用户运行了,为什么还会没有权限呢?你也可以先想一下,碰到这种情况,你会怎么处理呢?
一般遇到这种问题时,我会先检查一下进程的状态是否正常。
比如,继续在终端中运行 ps 命令,并使用 grep 找出刚才的 6082 号进程:
$ ps aux | grep 97741
root 97741 0.0 0.0 0 0 pts/0 Z+ 13:43 0:00 [app] <defunct>
使用perf record -g
perf report 查看记录
pstress 命令,查找父进程
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。