查询处理
SQL语言不同于其他编程语言,最明显的不同体现在处理代码的顺序上。在大多数编程语言中,代码按编码顺序被处理。但在SQL语言中,第一个被处理的子句总是FROM子句。下图显示了逻辑查询处理的顺序以及步骤的序号。
可以看到一共有11个步骤,最先执行的是FROM操作,最后执行的是LIMIT操作。每个操作都会产生一张虚拟表,该虚拟表作为一个处理的输入。这些虚拟表对用户是透明的,只有最后一步生成的虚拟表才会返回给用户。如果没有在查询中指定某一子句,则将跳过相应的步骤。
我们来具体分析查询处理的各个阶段:
- FROM: 对FROM子句中的左表<left_table>和右表<right_table>执行笛卡儿积(Cartesian product),产生虚拟表VT1。
- ON: 对虚拟表VT1应用ON筛选,只有那些符合<join_condition>的行才被插入虚拟表VT2中。
- JOIN:如果指定了OUTER JOIN(如LEFT OUTER JOIN、RIGHT OUTERJOIN),那么保留表中未匹配的行作为外部行添加到虚拟表VT2中,产生虚拟表VT3。如果FROM子句包含两个以上表,则对上一个连接生成的结果表VT3和下一个表重复执行步骤1)~步骤3),直到处理完所有的表为止。
- WHERE:对虚拟表VT3应用WHERE过滤条件,只有符合<where_condition>的记录才被插入虚拟表VT4中。
- GROUP BY:根据GROUP BY子句中的列,对VT4中的记录进行分组操作,产生VT5。
- CUBE | ROLLUP:对表VT5进行CUBE或ROLLUP操作,产生表VT6。
- HAVING:对虚拟表VT6应用HAVING过滤器,只有符合<having_condition>的记录才被插入虚拟表VT7中。
- SELECT:第二次执行SELECT操作,选择指定的列,插入到虚拟表VT8中。
- DISTINCT:去除重复数据,产生虚拟表VT9。
- ORDER BY:将虚拟表VT9中的记录按照<order_by_list>进行排序操作,产生虚拟表VT10。
- LIMIT:取出指定行的记录,产生虚拟表VT11,并返回给查询用户。
值得一提的是,如果想要按顺序选择数据,那么必须要应用ORDER BY子句,因为数据并非总是按照主键顺序进行排序的,不要为表中的行假定任何特定的顺序。
这是因为关系数据库是在数学的基础上发展起来的,关系对应于数学中集合的概念。数据库中常见的查询操作其实对应的是集合的某些运算:选择、投影、连接、并、交、差、除。最终的结果虽然是以一张二维表的方式呈现在用户面前,但是从数据库内部来看是一系列的集合操作。因此,对于表中的记录,用户需要以集合的思想来理解。而集合是无序的。
排序是需要一定成本的,我们可以通过变量来查看数据库的排序操作:
SHOW STATUS LIKE '%sort%'\G
我们可以从变量Sort_scan和Sort_rows来获取排序的扫描次数和扫描行数等信息。在实际的生产环境中,需要观察这些变量,判断是否可以通过添加索引来避免额外的排序开销。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。