https://v.youku.com/v_show/id_XNDQ2MDAzOTE2MA==.html

上一期我们通过基本拆分算法,展示基本配置是什么样的。现在来介绍下 dble 其他的一些功能。

dble 查询流程图

首先基本的 DML 我们已经介绍过了,在这里介绍下复杂查询。如图所示,所谓复杂查询大概是这样的一个定义。包括一些跨库分布的的数据查询、聚合函数、JOIN、UNION、子查询、复杂表达式和视图等等。dble 除了相关子查询是不支持的,其他都已经支持了。我们可以通过这张图来看是怎么做的。从上往下看,首先是一个客户端,然后是一个网络通讯层,基本上是通过 NIO 来通信。NIO 通信后,是 MySQL 通信协议。我们在 dble 层面做了一个 MySQL 协议的全范围的支持。这样会把二进制的 TCP 报文内容转变成我们熟悉的 SQL 文件,然后对 SQL 开始解析,从这里开始分两段。

1、简单查询

一个是简单语句,比如 select * from 某某表。或者是单表增删改,这样一些简单语句。条件化简是一些冗余的条件简化,比如说我在写 SQL 的时候。为了安全或者拼装方便,经常会有 1=1 这种这种没什么用的条件。化简以后通过路由计算,比如我刚才的 select * from table where id=?。我通过路由计算已经算到他要路由到哪一个数据节点。计算好以后,通过 SQL 和 MySQL 通信协议下达给 MySQL,我后端的 MySQL 数据库连接池是固定的,来提高性能,然后文件去下发到 MySQL,MySQL 结果返回了以后,然后从通信层到协议层,一直到所有结点结果返回。结果是如果没有其他合并项,比如点查的场景,其实就直接结束了。但我们有时候我们的查询是 select * from table where id in(1,2,3)。遇到路由到多个结点的时候,需要返回来,然后把结果简单的合并一下。这就是我们的简单查询,逻辑还比较简单。

2、复杂查询

然后就到了复杂查询。比如我们前面说到的 JOIN UNION 等等,其实我是要通过解析 SQL。这样一个复杂 SQL 画成一棵树。通过这样一个查询计划树,比如我拿 JOIN 举例,两张表的 JOIN 可以简单的做成一个二叉树。二叉树的父亲节点就是 JOIN 本身,叶子节点就是两个 JOIN 的子表,通过叶子节点生成基本查询,然后下发给 MySQL,MySQL 把结果返回来以后,我们要逆着这个二叉树来做一个返回两个二叉树的叶子节点,都会把它的结果汇报给他的父亲节点。父亲节点会有一个计数器,当它自己的孩子都返回给它结果以后,再将结果返回给它自己的父亲,一直递归循环到它的根节点。比如说我们 JOIN 就是一层父亲结点,他的一层父亲结点节点收集到结果就已经结束了。最后返回给上面的通信层,通信层把它包装成 MySQL 协议,通过这样一个方式我们实现了复杂查询。下面我们来举个例子。

操作实例

https://v.youku.com/v_show/id_XNDQ2MDAzMTgzNg==.html

我们来看一下刚才 tb_mod 那张表,这张表现在有五行数据。我们再看另外一张表 jump_hash 也有五行数据。稍微有点区别的是,一个是 12345;一个特意做成 12346,我们来看一下。这两张表在配置中大概是什么样的。特别是 jump_hash,刚才我们没有提到过。mod 我们已经提到过了,就是一个对 4 求模得一个拆分。jump_hash 我们可以看到这里面数据节点只有 dn1和 dn2。是一个通过跳增一致性 hash 算法,把数据分布到两个节点上去的。跳增一致性 hash 算法的细节,我们可以暂时忽略,我们先有一个概念,这张表是拆分到两个节点上。上面的 tb_mod 表是拆分到四个节点上的,这样的两个表,其实分布的方式完全是不一样的。我们想想看这样一个表,在数据库里真实情况大概是什么样?我们来看一看 jump_hash 的拆分算法,这边看到是一致性 hash 算法。一致性 hash 算法我们在这里不做介绍了,因为它比较复杂,可以去看文档。也有一个这样论文来描述这个算法,就不在这里花时间讲解了。我们看到它是拿 code 列来做拆分的,也就是拿第二列来做拆分的。这样的两张表,其实他们之间可以说基本没什么关系,无论从拆分规则来说,还是从拆分的分布来说都是不一样。看一下它的分布 12346,前三个 123 都分布在 dn2 上,4 6 分布在 dn1 上。这样的一个分布和 tb_mod 的分布是不一样的,下一节我们介绍其他的拆分规则。好,我们今天先介绍到这里。

图文稿为了方便阅读,在不影响学习的情况下优化了一些口语化词汇,文稿与视频会尽量保持一致。

爱可生开源社区
426 声望207 粉丝

成立于 2017 年,以开源高质量的运维工具、日常分享技术干货内容、持续的全国性的社区活动为社区己任;目前开源的产品有:SQL审核工具 SQLE,分布式中间件 DBLE、数据传输组件DTLE。