用于解决树形结构存储的闭包表,凭什么能快速获取某个节点的祖先节点/父节点/子节点?

前言

看到网上很多文章吐槽,邻接表模型用递归获取祖先节点/后代节点,导致性能很差。

而用闭包表就能空间换时间,很快获取。书本也是这么夸闭包表的。

可是我看着闭包表的结构,没搞懂它是如何走索引,来快速获取祖先节点/父节点/子节点的?

闭包表结构

引入一个实际例子说吧。假设闭包表结构为:(简化,后续用 节点指代的名称 代替 节点ID

CREATE TABLE 闭包表 (
    祖先节点ID INT,
    后代节点ID INT,
    这俩节点距离 INT,
    PRIMARY KEY (祖先节点ID, 后代节点ID)
);

现有一张约 66W 行数据的 5 级地区表,各级数量为:(参考自 中华人民共和国行政区划(五级))

31342299041356618134

那么,建立的闭包表的行数量为:

1*1 (根, 根) + 31*2 (根, 省), (省, 省) + 342*3 + 2990*4 + 41356*5 + 618134*6 = 3928633 行

1. 如何快速获取 31 个省份?

网上很多的 SQL 是这样的:

SELECT 后代节点 FROM 闭包表 WHERE 祖先节点 = '根节点' AND /* 缺失:后代节点 = ? AND */ 距离 = 1

可是,根据最左匹配原则,距离 = 1 是无法利用的,所以上述 SQL 要扫描 66W 行(每个地区都有到根节点的记录),才能获得结果??

2. 如何获取“杭州”所属省份?

网上的 SQL

SELECT 祖先节点 FROM 闭包表 WHERE /* 缺失:祖先节点 = ? AND */ 后代节点 = '杭州' AND 距离 = 1

根据最左匹配原则,利用不了索引,所以上述 SQL 要扫描 390W 行,才能获得“杭州”的父节点??

3. 如何获取“哈尔滨市zf亚布力滑雪度假区管理委员会虚拟社区”的省市区街村全称?(挑了个名字最长的。。)

网上的 SQL

SELECT 祖先节点 FROM 闭包表 WHERE /* 缺失:祖先节点 = ? AND */ 后代节点 = '...' ORDER BY 距离 DESC

同理,这也是要扫描 390W 行,才能得到结果??

阅读 4.6k
2 个回答

“闭包表”对我来说是个新的概念,学到了!

从数据结构的设计来看,这个表是记录了每两个节点之间的关系,如果这个理解无误,这个表的数据量应该是相当的的大。题中给出了数据:

1*1 (根, 根) + 31*2 (根, 省), (省, 省) + 342*3 + 2990*4 + 41356*5 + 618134*6 = 3928633 行

快速获取 31 个省份这个 SQL,在建立(祖先,距离)复合节点索引的情况下,这个 SQL 应该还是快

SELECT 后代节点 FROM 闭包表 WHERE 祖先节点 = '根节点' AND 距离 = 1

但是如果要查杭州所在的省份,距离 = 1 这个条件是因为你知道杭州是市级节点。不过显然这个索引需要(后代,距离)复合索引。或者只有(后代)索引,应该可以先过滤出杭州作为后代的相关节点(也就几条),再从中筛选距离为 1 的。

SELECT 祖先节点 FROM 闭包表 WHERE 后代节点 = '杭州' AND 距离 = 1

基于(后代)索引,查某个地方的所有父节点也快。

综上,如果分别建立(祖先,距离)索引和(后代)索引,应该能有效提升查询速度。

以上都是基于理论上的分析,不清楚实际上会遇到什么问题,可以试试先!

测试 闭包表 和 改良后的邻接表 速度

(结尾附上一键建表和查询的 SQL 供测试)

  • 数据源:2022 年中国全国 5 级行政区划
  • 数据库:MySQL 8.0.29SQLite 3.39.0
  • 表结构:『闭包表』和『 (<pid, id>, is_leaf) 型邻接表』
  • 测试项:『查询根节点所有后代』和『查询根节点第 5 层后代』

结果如下 (多次测试稳定后)

『查询根节点所有后代』速度对比

表结构MySQLSQLite
闭包表1.3 秒0.13 秒
递归邻接表1.2 秒0.60 秒
理想中递归损耗很小的邻接表0.6 秒0.12 秒

『查询根节点第 5 层后代』速度对比

表结构MySQLSQLite
闭包表1.2 秒0.12 秒
递归邻接表0.5 秒0.13 秒
理想中递归损耗很小的邻接表0.4 秒0.10 秒

目前观点

  1. 4W 多次的 refWHERE pid = ?,还是能和 66W 次 eq_ref 级的 WHERE id = ? 过过招,甚至更快的。而且,磁盘IO越慢,这个差异应该越大。
  2. 数据库们的 WITH RECURSIVE 查询,损耗有点大。

    • MySQL 好歹每次递归都将上一次所有结果当作一张表来计算。但大概 5 次递归的耗时,就比非递归的多一倍了
    • SQLite 最摆烂,每次递归只取以前结果的一行来计算,直到取完为止。所以有 66W 次的递归,耗时大概 5 倍多。。

      Extract a single row from the queue.

      Pretend that the single row just extracted is the only row in the recursive table and run the recursive-select, adding all results to the queue.

『查询根节点所有后代』通用 SQL

下面 SQL 基本可用于 MySQLSQLite (不支持的特性,数据库会报错,改掉即可)

PRAGMA cache_size = -204800; -- 允许 SQLite 缓存 200 MB

-- 闭包表查询
SELECT COUNT(*), SUM(code), SUM(CHAR_LENGTH(name)) -- SQLite 写法:SUM(LENGTH(name))
  FROM closure_tree
 FORCE INDEX (idx_closure_tree) -- 我这测试,MySQL 不加这行,耗时翻好几倍。SQLite 需去掉此行
  JOIN closure ON id = descendant
 WHERE ancestor = 0;

-- 递归邻接表查询
WITH RECURSIVE
  find(id, code, name, is_leaf) AS (
    SELECT id, code, name, is_leaf
      FROM adjacent
     WHERE pid = 0
     UNION ALL
    SELECT b.id, b.code, b.name, b.is_leaf
      FROM find a
      JOIN adjacent b ON NOT a.is_leaf AND b.pid = a.id
  )
SELECT COUNT(*), SUM(code), SUM(CHAR_LENGTH(name)) -- SQLite 写法:SUM(LENGTH(name))
  FROM find;

-- 理想中,没有递归损耗的邻接表查询
SELECT COUNT(*), SUM(b.code), SUM(CHAR_LENGTH(b.name)) -- SQLite 写法:SUM(LENGTH(name))
  FROM adjacent a
  LEFT JOIN adjacent b ON b.pid = a.id -- SQLite 需要 LEFT JOIN,否则耗时翻几倍
 WHERE NOT a.is_leaf;

『查询根节点第 5 层后代』通用 SQL

PRAGMA cache_size = -204800; -- 允许 SQLite 缓存 200 MB

-- 闭包表查询
SELECT COUNT(*), SUM(code), SUM(CHAR_LENGTH(name)) -- SQLite 写法:SUM(LENGTH(name))
  FROM closure_tree
 FORCE INDEX (idx_closure_tree) -- 我这测试,MySQL 不加这行,耗时翻好几倍。SQLite 需去掉此行
  JOIN closure ON id = descendant
 WHERE ancestor = 0
   AND distance = 5;

-- 递归邻接表查询
WITH RECURSIVE
  var(depth) AS (
    SELECT 5
  ),

  -- 递归部分查前 N - 1 层
  find(id, is_leaf, depth) AS (
    SELECT 0, FALSE, var.depth - 1
      FROM var
     UNION ALL
    SELECT b.id, b.is_leaf, a.depth - 1
      FROM find a
      JOIN adjacent b ON b.pid = a.id
     WHERE a.depth > 0
       AND NOT a.is_leaf
  )

-- 最后一次性 JOIN 第 N 层
SELECT COUNT(*), SUM(b.code), SUM(CHAR_LENGTH(b.name)) -- SQLite 写法:SUM(LENGTH(b.name))
  FROM find a
 CROSS JOIN adjacent b ON a.id = b.pid -- SQLite 要加 CROSS,否则耗时翻几倍
 WHERE a.depth = 0;

-- 理想中,没有递归损耗的邻接表查询(需要根据层数 N,动态生成 SQL)
SELECT COUNT(*), SUM(t5.code), SUM(CHAR_LENGTH(t5.name)) -- SQLite 写法:SUM(LENGTH(t5.name))
  FROM adjacent t1
  JOIN adjacent t2 ON t2.pid = t1.id
  JOIN adjacent t3 ON t3.pid = t2.id
  JOIN adjacent t4 ON t4.pid = t3.id
  JOIN adjacent t5 ON t5.pid = t4.id
 WHERE t1.pid = 0;

MySQL 一键建表 SQL

(在我低配笔记本和固态上,大约执行了 1 分钟)

-- 允许 200 MB 的内存表
SET max_heap_table_size = 200 << 20;

-- 建临时数据表,装载 csv 数据,以及计算序号和父子关系
CREATE TABLE data (
    code    BIGINT      NOT NULL,
    p_code  BIGINT      NOT NULL,
    type    TINYINT     NOT NULL,
    name    VARCHAR(25) NOT NULL,
    id      INT         NOT NULL,
    pid     INT         NOT NULL,
    PRIMARY KEY (code) USING BTREE,
    INDEX USING BTREE (id),
    INDEX USING BTREE (pid, id)
) ENGINE = MEMORY;

-- 加载 csv
LOAD DATA INFILE 'area_code_2022.csv'
INTO TABLE data
CHARACTER SET UTF8MB4
FIELDS TERMINATED BY ','
ENCLOSED BY '"'
(code, name, type, p_code);

-- 按照 code 顺序计算 id
UPDATE data
  JOIN (SELECT code, ROW_NUMBER() OVER win row_num
          FROM data
        WINDOW win AS (ORDER BY code)) t USING(code)
   SET id = row_num;

-- 计算 parent_id(不存在的标0)
UPDATE data a
  LEFT JOIN data b ON b.code = a.p_code
   SET a.pid = IFNULL(b.id, 0);

-- 建邻接表,并从临时数据表填充数据
CREATE TABLE adjacent (
    id      INT         NOT NULL,
    pid     INT         NOT NULL,
    is_leaf BOOL        NOT NULL,
    type    TINYINT     NOT NULL,
    code    BIGINT      NOT NULL,
    name    VARCHAR(25) NOT NULL,
    PRIMARY KEY (pid, id)
)
SELECT -1 pid, 0 id, FALSE is_leaf, 0 type, 0 code, '' name
 UNION ALL
SELECT pid, id, type = 5 is_leaf, type, code, name
  FROM data;

-- 建闭包表主表,并从临时数据表填充数据
CREATE TABLE closure (
    id      INT         NOT NULL,
    type    TINYINT     NOT NULL,
    code    BIGINT      NOT NULL,
    name    VARCHAR(25) NOT NULL,
    PRIMARY KEY (id)
)
SELECT 0 id, 0 type, 0 code, '' name
 UNION ALL
SELECT id, type, code, name
  FROM data;

-- 建闭包表树形关系表
CREATE TABLE closure_tree (
    ancestor    INT     NOT NULL,
    descendant  INT     NOT NULL,
    distance    TINYINT NOT NULL,
    PRIMARY KEY (descendant, distance)
);

-- 递归构建树形关系
INSERT INTO closure_tree(ancestor, descendant, distance)
WITH RECURSIVE
  parent_of(orig_id, id, dist) AS (
    SELECT id, id, 0
      FROM data
     UNION ALL
    SELECT orig_id, pid, dist + 1
      FROM parent_of
      JOIN data USING(id)
     WHERE id
  )
SELECT id, orig_id, dist
  FROM parent_of;

-- 为闭包表树形关系表建二级索引
CREATE INDEX idx_closure_tree ON closure_tree (ancestor, distance);

-- 丢弃临时数据表
DROP TABLE data;

SQLite 一键建表 SQL

下列 SQL 需要依赖 SQLite Shell.import --csv,核心 SQLite 库不提供此功能。

因此,需要使用命令行的 SQLite 来运行Windows 可去官网下载个 1~2 MB 的 sqlite3.exe

下面使用 Bash Shell 来包装执行命令与 SQL,大约需要运行 30 秒,然后在同目录下生成 150 MB 左右的 test.db

#!/bin/bash

sqlite3 :memory: <<'EOF'

-- 在内存中计算,最后整理紧凑才写入文件
PRAGMA TEMP_STORE = MEMORY;

-- 导入 csv 文件至临时表
CREATE TEMP TABLE csv (code INTEGER PRIMARY KEY, name TEXT, type INT, p_code INT);
.import --csv area_code_2022.csv csv

-- 建邻接表
CREATE TABLE adjacent (
    id      INT     NOT NULL,
    pid     INT     NOT NULL,
    is_leaf INT     NOT NULL,
    type    INT     NOT NULL,
    code    INT     NOT NULL,
    name    TEXT    NOT NULL,
    PRIMARY KEY (pid, id)
) WITHOUT ROWID;

-- 填充邻接表
INSERT INTO adjacent (pid, id, is_leaf, type, code, name)
SELECT -1, 0, FALSE, 0, 0, ""
 UNION ALL
SELECT p_code, ROW_NUMBER() OVER (), type = 5, type, code, name
  FROM csv
 ORDER BY code;

-- 建临时索引,提速 code 搜索
CREATE INDEX i ON adjacent (code);

-- 更新 pid
UPDATE adjacent
   SET pid = t2.id
  FROM adjacent t2
 WHERE adjacent.pid = t2.code;

-- 丢弃临时索引
DROP INDEX i;

-- 建 id -> pid 索引
CREATE INDEX idx_adjacent_id ON adjacent (id);

-- 建闭包表主表
CREATE TABLE closure (
    id      INTEGER PRIMARY KEY,
    type    INT     NOT NULL,
    code    INT     NOT NULL,
    name    TEXT    NOT NULL
);

-- 建闭包表树形关系表
CREATE TABLE closure_tree (
    ancestor    INT NOT NULL,
    descendant  INT NOT NULL,
    distance    INT NOT NULL,
    PRIMARY KEY (descendant, distance)
) WITHOUT ROWID;

-- 填充闭包表主表
INSERT INTO closure (id, type, code, name)
SELECT id, type, code, name
  FROM adjacent;

-- 递归构建树形关系
WITH RECURSIVE
  parent_of(orig_id, id, dist) AS (
    SELECT id, id, 0
      FROM adjacent
     UNION ALL
    SELECT orig_id, pid, dist + 1
      FROM parent_of
      JOIN adjacent USING(id)
     WHERE id
  )
INSERT INTO closure_tree (ancestor, descendant, distance)
SELECT id, orig_id, dist
  FROM parent_of;

-- 为闭包表树形关系表建二级索引
CREATE INDEX idx_closure_tree ON closure_tree (ancestor, distance);

-- 整理紧实数据库后,写入磁盘
ANALYZE;
VACUUM INTO 'test.db';

EOF
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏