首先先简单的将一个查询语句背后MySQL做了什么捋一捋:
- 客户端发送一条查询给服务器。
- 服务器先检查查询缓存,如果命中了缓存,则立刻返回存储在缓存中的结果。否则进入下一个阶段。
- 服务器端进行SQL解析,预处理,再由优化器生成对应的执行计划。
- MySQL根据优化器生成的执行计划,调用存储引擎的API来执行查询。
- 将结果返回给客户端。
接着我们就将这个过程中的这些步骤详细的进行展开。
1.客户端和服务器端之间的通信方式
客户端和服务器之间的通信是一种半双工的通信,即在同一时刻,只能有一方向另一方发送数据。所以客户端在发送完查询请求之后,所能做的就是等待服务器将查询的结果返回,并且需要一直地等到返回的数据全部接收完毕后才能进行下一步的操作,而不可以在服务器发送的过程中中断发送或者断开连接。
2.查询缓存
在解析一个查询语句之前,如果查询缓存是打开着的,那么MySQL会优先检查这个查询是否命中查询缓存中的数据。这个检查是通过一个对大小写敏感的哈希表来实现的。在查询命中缓存的情况下,直接从缓存中拿到结果并返回给客户端。MySQL不会再执行下面的操作,即查询语句不会被解析,不会生成执行计划,不会被执行。
3.查询优化处理
这个环节可能是整个查询执行过程中最为复杂的一个环节,可以分为解析SQL,预处理和优化SQL执行计划三个步骤。
(1)语法解析器和预处理
这个过程就是对我们传入的SQL语句的语法进行检查,以及验证查询的权限。炳辉生成一棵“解析树”。
(2)查询优化器
在进入到这一步时,证明我们的语句语法层面已经没有问题了。一条查询可以有很多种执行计划都能返回正确的结果,这个环节就是来选取最优的执行计划的。
MySQL的最优执行计划是基于成本的。MySQL会为每个操作设定一个成本(如执行一次where比较),并从所有的执行计划中选择“成本”最少的。
我们可以使用下列语句查看上一个查询操作的成本:
mysql> SHOW STATUS LIKE 'last_query_cost';
MySQL会返回一个执行的成本数据:
+-----------------+----------+
| Variable_name | Value |
+-----------------+----------+
| Last_query_cost | 0.549000 |
+-----------------+----------+
但值得注意的是,这里的“成本”最小并不等于查询的速度最快。即以“成本”来判断查询语句的优劣有时候是不可靠的。
优化器的优化策略可以大致地分为两种:静态优化和动态优化。
静态优化是直接对之前生成的解析树进行分析,例如可以通过一些代数变换将where条件转化为另一种等价形式。静态优化在第一次完成后就一直生效,即使使用不同的参数重复执行查询也不会发生变化,可以认为是一种“编译(预处理)时优化”。
动态优化和查询的上下文相关,需要在每一次查询的时候重新评估,可以认为是一种“运行时优化”。
下面是一些MySQL能够处理的优化类型:
- 重新定义关联表的顺序
有时候我们所给的查询语句关联表的顺序可能对于查询来说效率并不是最优的,这时候MySQL可以自动帮我们将关联表的顺序进行调整提高效率。
- 将外连接转化为内连接
并不是所有的OUT JOIN语句都必须以外连接的方式执行。MySQL能够识别这一点并重写查询,让其可以调整关联顺序。
- 使用等价变换规则
使用一些等价的语句来减少比较的次数,移除一些恒成立和不恒成立的条件。例如,(5=5 AND a>5)会被改写为a>5;如果有(a5 AND b=c AND a=5。
- 优化COUNT()、MIN()和MAX()
索引和列是否为空可以帮助优化这一类表达式。例如查找最小值的时候就可以借助索引直接查找最左端的记录,这样就不用进行整个表的查询,而是以一个常数进行取代。
- 覆盖索引扫描
当索引中的列包含所有查询中需要使用的列的时候,MySQL就会使用索引返回所需要的数据,而无须查询对应的数据行。
- 提前终止查询
在发现查询已经能满足需求的时候,MySQL总能立刻终止查询。一个典型的例子就是当使用了LIMIT子句的时候。
至此,MySQL服务器层已经根据所给的查询语句给出了一个最优的执行计划。但是我们需要知道的是,我们到目前为止所进行的一些列的操作都是在服务器层进行的,而这一层中并不是数据存储的地方。因此接下来我们需要拿着我们的最优执行计划去到实际的存储引擎中进行查找。因此就引出了我们的下一步操作:向存储引擎获取相应的统计信息。
4.查询执行引擎
相对于查询优化阶段,查询执行阶段并不是那么复杂。MySQL只是简单地根据执行计划给出的指令逐步执行。
5.返回结果给客户端
查询执行的最后一个阶段是将结果返回给客户端,即使查询不需要返回结果集给客户端,MySQL仍然会返回这个查询的一些信息,例如查询影响的行数。
如果查询可以被缓存,这个阶段MySQL会讲查询的结果放到查询缓存中。
返回结果的过程是一个逐步增量的过程。即当拿到第一个结果的时候就开始向客户端返回了。这样做的好处是不会一次性返回全部数据导致占用内存过多,而且客户端也能在第一时间拿到结果。结果集中的每一行都会以一个满足MySQL客户端/服务器通信协议的封包发送,再通过TCP协议进行传输,在TCP传输的过程中,可能对封包进行缓存后再批量发传输。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。