LNMP的运维追踪技巧总结

曾几何时我开始运维公司的LNMP网站，经过一段时间的摸爬滚打，也算是总结了不少在LNMP服务器下调试追踪各种网站错误的方法。好记性不如烂笔头，还是总结一下吧！

在开始我会梳理一下我所理解的一个web请求从发起到响应的各个阶段服务器和浏览器分别做了什么。所以的用户响应异常都是发生在这个流程中的，知道每个流程的细节可以通过不同的方法分别定位异常发生在哪个阶段，从而更准确快速的定位错误。后面就是持续更新的我在被这个网站折磨中经历的各种错误，给自己做一个记录，当然如果能帮到其他人，我也很荣幸。

一个Web请求过程中到底发生了什么？

简单的web请求

上图是一个简单的web请求全过程，嗯，画的确实有点过于简单，上图中我隐藏了很多细节，下面一一说明，可能有没涉及到的地方欢迎补充：

第一步

用户输入url如http:www.baidu.com到浏览器，浏览器如chrom需要将其解析为ip地址才知道需要到哪里去访问哪个服务器。浏览器解析DNS步骤如下：

搜索浏览器自身的dns缓存，这个缓存缓存时间短，缓存数目有限。
搜索操作系统的dns缓存
读取host文件的dns映射(一般做本地开发映射都是修改这个文件来达到拦截浏览器请求到本地服务器的目的，从而使本地可以成功映射服务器地址)
先本地网卡配置里的dns服务器发起域名解析请求，这里好像还有一套运营商的处理流程就不在展开了。
下面好像还有一些流程，由于基本不会执行到这一步，一般所以dns运营商的dns服务器都会搞定的。
解析失败，以上任何一步成功都会返回一个成功的ip地址

第二步

浏览器以一个随机的端口享这个ip地址的特定端口(默认80)发起著名的TCP3次握手。关于一个http请求是如何到达nginx服务的流程大致如下：

st=>start: TCP请求
en=>end: 异常
op=>operation: Nginx模块
cond1=>condition: 进入网卡？
cond2=>condition: 内核的TCP/IP协议栈？
cond3=>condition: 防火墙?

st->cond1
cond1(yes)->cond2
cond1(no)->en
cond2(yes)->cond3
cond2(no)->en
cond3(no)->en
cond3(yes)->op

第三步

握手完成后的浏览器和服务器就可以愉快地发送http请求了，具体在nginx上流程如下：

st=>start: http请求
en=>end: response响应 
op1=>operation: 第二步流程 
op2=>operation: nginx进程 
op3=>operation: 获取http的头部信息 
op4=>operation: 匹配server_name，定位到站点的root 
op5=>operation: 进入代码框架的路由 
op6=>operation: 框架的路由解析器解析出php文件 
op7=>operation: php进入fastcgi进程 
op8=>operation: fastcgi进程将php填充成html文件 
op9=>operation: html文件递交给nginx并设置响应信息 

st->op1->op2->op3->op4->op5->op6->op7->op8->op9->en

第四步

浏览器根据服务器resopnse的响应头和响应体渲染出可视化页面

响应码	说明
1xx	信息性状态说明
2xx	成功状态码
3xx	重定向状态码
301	永久重定向, Location响应首部的值仍为当前URL，因此为隐藏重定向
302	临时重定向，显式重定向, Location响应首部的值为新的URL
304	Not Modified 未修改，比如本地缓存的资源文件和服务器上比较时，发现并没有修改，服务器返回一个304状态码,告诉浏览器，你不用请求该资源，直接使用本地的资源即可
4xx	客户端错误
404	Not Found 请求的URL资源并不存在
5xx	服务器错误
500	Internal Server Error 服务器内部错误
502	Bad Gateway 前面代理服务器联系不到后端的服务器时出现
504	Gateway Timeout 这个是代理能联系到后端的服务器，但是后端的服务器在规定的时间内没有给代理服务器响应

上面大致梳理了下一个http请求在LNMP服务端体系下的流程。心中有个整体流程的概念才可以更好的追踪实际问题。下面就是针对上面几个基本步骤中会出现的问题的定位和追踪。

第一步和第二步出现问题，可以通过「端口可用性探测」来定位。

ping www.baidu.com 检测域名解析器是否异常

检查域名解析是否错误

telnet 127.0.0.1 80 追踪端口是否异常

检查端口是否打开，防火墙是否过滤

第三步出现的问题

这一步一般是网站出问题的主要地方，绝大部分问题都是出现在这个阶段，同样这个阶段出现的问题也是最难定位和解决的。为了更好的处理这个阶段的问题我们需要更深入地了解下一个web服务器与一个web程序直接的信息通信的模型与流程。

要说明这个问题，首先我们需要了解什么是大名顶顶的CGI协议、FASTCGI协议和PHP-FPM，以及它们之前的关系。

对于一个PHP的web程序来说，web服务器（如：nginx）要想与它通信需要通过CGI协议。当一个web请求触达web服务器时，web服务器会创建一个CGI进程,CGI进程将web的请求按照固定的格式进行解析，然后写入标准输入(STDIN)和环境变量中，然后PHP启动的CGI解析器会从标准输入(STDIN)和环境变量中读取http请求的数据，所以$_SERVER才会有数据，然后做出相应的逻辑处理，然后将处理结果放入标准输出(STDOUT)，CGI进程从STDOUT中读取响应数据然后传输给浏览器，这样服务端就完成了一次http请求。

上面是CGI的实现流程，但是使用CGI协议的服务器在用户每次访问服务器的时候都需要fork/销毁CGI进程，必然照成多余的系统开销，所以FASTCGI就是为了解决这个问题的。

FastCGI会创建一个常驻的master进程和多个worker进程，master进程负责管理和为worker进程反派任务，worker进程负责内部嵌入了CGI解析器用于解释php代码。

PHP-FPM是一个FastCGI进程管理器，在LNMP体系中就是由它来实现FastCGI协议的。同样，它也会创建一个常驻的master进程和多个worker进程，master进程负责监听端口和接收来自nginx的请求，指派任务给worker进程。worker进程的负责解释php代码。PHP-FPM可以通过配置预先启动一定数量的worker进程，这样当http请求触达时就可以更快速的响应。

nginx与PHP-FPM之间的通信一般通过其ngx_http_fastcgi_module模块来实现。其中fastcgi_pass用于设置fastcgi服务器的IP地址;fastcgi_param设置传入fastcgi服务器的参数。这个模块出现的配置问题一般集中在这一块。

相对于并发状态下出现的问题，一般也都集中在fastcgi服务器上，具体表现为fastcgi服务器为了应对大量的http请求必须不停的fork新的worker进程，这时就需要考虑服务器可支持的最大链接数和最大打开文件数（可通过ulimit -n查看）以及php-fpm配置里的最低开启worker数和最高开启worker数的限制。高性能服务器可以在这个方向上调优。这也是我目前还在探索的地方，以后肯定也会写一个总结。

第四步出现的问题

这一步一般很少出现问题，出现问题也很容易定位，多是前端渲染问题，我也不是很懂。

未完分割线，后面我会总结一些各个阶段可能发生的错误，这些错误在客户端的表现，如何定位，以及如何解决。

CSDN传送门

LNMP的运维追踪技巧总结