前几天查看heka日志的错误日志的时候,发现报错信息 too many open files,很明显打开文件数过多了。
第一个问题来了,如何查看当前进程打开的文件数和最大打开文件数呢?
当前进程打开文件数
ls /proc/[pid]/fd|wc -l
当前进程最大打开文件数cat /proc/[pid]/limits|grep open
可以看到如下所示的输出:
Max open files 1024 4096 files
当前系统最大打开文件数ulimit -n
第二个问题是我该如何修改进程的最大文件打开数呢?
找到最大文件打开数的设置方法,这个问题也就解决了,通常有下面几种修改方式:
1)ulimit -n 102400
直接使用ulimit命令修改,但这个只会对当前会话生效,终端关闭后,设置丢失。
2)/etc/security/limitd.conf
文件中增加limits的配置,一般如下:
* soft nofile 102400
配置的具体含义,大家自行搜索。/etc/security/limitd.conf
在每一个会话创建时都会加载,所以修改这里是一个使配置长期生效的方法。
3)修改shell的启动项,将ulimit -n 102400
放进去,每次创建会话时也会加载。一般是/etc/profile
文件,或者/etc/profile.d/limits.sh
中。
到此为止,配置好了,你通过 ulimit -n
查看系统的最大文件打开数已经生效了。但此时查看进程的最大文件打开数没有变,原因是这个值是在进程启动的时候设定的,要生效必须重启!
ok,那就重启吧,重启完毕,结果发现依然没变!这奇了怪了,后来经过好久的排查,最终确认问题是,该程序是通过 supervisord
来管理的,也就是这进程都是 supervisord
的子进程,而 supervisord
的最大文件打开数还是老的配置,此时必须重启 supervisord
才可以。后来在saltstack上也遇到了同样的问题,必须把所有的 salt-minion 重启。
当大家遇到limits修改不生效的时候,请查一下进程是否只是子进程,如果是,那就要把父进程也一并重启才可以。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。