1
作者:洪斌

每个 DBA 是不是都有过删库的经历?删库了没有备份怎么办?备份恢复后无法启动服务什么情况?表定义损坏数据无法读取怎么办?
我曾遇到某初创互联网企业,因维护人员不规范的备份恢复操作,导致系统表空间文件被初始化,上万张表无法读取,花了数小时才抢救回来。
当你发现数据无法读取时,也许并非数据丢失了,可能是 DBMS 找不到描述数据的信息。

背景

先来了解下几张关键的 InnoDB 数据字典表,它们保存了部分表定义信息,在我们恢复表结构时需要用到。

SYS_TABLES 描述InnoDB表信息

CREATE TABLE `SYS_TABLES` (
`NAME` varchar(255) NOT NULL DEFAULT '',  表名
`ID` bigint(20) unsigned NOT NULL DEFAULT '0',  表id
`N_COLS` int(10) DEFAULT NULL,
`TYPE` int(10) unsigned DEFAULT NULL,
`MIX_ID` bigint(20) unsigned DEFAULT NULL,
`MIX_LEN` int(10) unsigned DEFAULT NULL,
`CLUSTER_NAME` varchar(255) DEFAULT NULL,
`SPACE` int(10) unsigned DEFAULT NULL,   表空间id
PRIMARY KEY (`NAME`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

SYS_INDEXES 描述InnoDB索引信息

CREATE TABLE `SYS_INDEXES` (
  `TABLE_ID` bigint(20) unsigned NOT NULL DEFAULT '0', 与sys_tables的id对应
  `ID` bigint(20) unsigned NOT NULL DEFAULT '0',  索引id
  `NAME` varchar(120) DEFAULT NULL,         索引名称
  `N_FIELDS` int(10) unsigned DEFAULT NULL, 索引包含字段的个数
  `TYPE` int(10) unsigned DEFAULT NULL,
  `SPACE` int(10) unsigned DEFAULT NULL,  存储索引的表空间id
  `PAGE_NO` int(10) unsigned DEFAULT NULL,  索引的root page id
  PRIMARY KEY (`TABLE_ID`,`ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

SYS_COLUMNS 描述InnoDB表的字段信息

CREATE TABLE `SYS_COLUMNS` (
  `TABLE_ID` bigint(20) unsigned NOT NULL, 与sys_tables的id对应
  `POS` int(10) unsigned NOT NULL,     字段相对位置
  `NAME` varchar(255) DEFAULT NULL,    字段名称
  `MTYPE` int(10) unsigned DEFAULT NULL,  字段编码
  `PRTYPE` int(10) unsigned DEFAULT NULL, 字段校验类型
  `LEN` int(10) unsigned DEFAULT NULL,  字段字节长度
  `PREC` int(10) unsigned DEFAULT NULL, 字段精度
  PRIMARY KEY (`TABLE_ID`,`POS`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

SYS_FIELDS 描述全部索引的字段列

CREATE TABLE `SYS_FIELDS` (
  `INDEX_ID` bigint(20) unsigned NOT NULL, 
  `POS` int(10) unsigned NOT NULL,
  `COL_NAME` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`INDEX_ID`,`POS`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1;

./storage/innobase/include/dict0boot.h 文件定义了每个字典表的index id,对应id的page中存储着字典表的数据。
图片描述

这里我们需要借助undrop-for-innodb工具恢复数据,它能读取表空间信息得到page,将数据从page中提取出来。

# wget https://github.com/chhabhaiya/undrop-for-innodb/archive/master.zip
# yum install -y gcc flex bison
# make
# make sys_parser

./sys_parser 读取表结构信息
sys_parser [-h <host>] [-u <user>] [-p <passowrd>] [-d <db>] databases/table

stream_parser 读取InnoDB page 从ibdata1或ibd 或分区表

# ./stream_parser
You must specify file with -f option
Usage: ./stream_parser -f <innodb_datafile> [-T N:M] [-s size] [-t size] [-V|-g]
  Where:
    -h         - Print this help
    -V or -g   - Print debug information
    -s size    - Amount of memory used for disk cache (allowed examples 1G 10M). Default 100M
    -T         - retrieves only pages with index id = NM (N - high word, M - low word of id)
    -t size    - Size of InnoDB tablespace to scan. Use it only if the parser can't determine it by himself.

c_parser 从innodb page中读取记录保存到文件

# ./c_parser
Error: Usage: ./c_parser -4|-5|-6 [-dDV] -f <InnoDB page or dir> -t table.sql [-T N:M] [-b <external pages directory>]
  Where
    -f <InnoDB page(s)> -- InnoDB page or directory with pages(all pages should have same index_id)
    -t <table.sql> -- CREATE statement of a table
    -o <file> -- Save dump in this file. Otherwise print to stdout
    -l <file> -- Save SQL statements in this file. Otherwise print to stderr
    -h  -- Print this help
    -d  -- Process only those pages which potentially could have deleted records (default = NO)
    -D  -- Recover deleted rows only (default = NO)
    -U  -- Recover UNdeleted rows only (default = YES)
    -V  -- Verbose mode (lots of debug information)
    -4  -- innodb_datafile is in REDUNDANT format
    -5  -- innodb_datafile is in COMPACT format
    -6  -- innodb_datafile is in MySQL 5.6 format
    -T  -- retrieves only pages with index id = NM (N - high word, M - low word of id)
    -b <dir> -- Directory where external pages can be found. Usually it is pages-XXX/FIL_PAGE_TYPE_BLOB/
    -i <file> -- Read external pages at their offsets from <file>.
    -p prefix -- Use prefix for a directory name in LOAD DATA INFILE command

接下来,我们演示场景的几种数据恢复场景。

场景1:drop table

是否启用了innodb_file_per_table其恢复方法有所差异,当发生误删表时,应尽快停止MySQL服务,不要启动。若innodb_file_per_table=ON,最好只读方式重新挂载文件系统,防止其他进程写入数据覆盖之前块设备的数据。

如果评估记录是否被覆盖,可以表中某些记录的作为关键字看是否能从ibdata1中筛选出。
grep WOODYHOFFMAN ibdata1
Binary file ibdata1 matches
也可以使用bvi(适用于较小文件)或hexdump -C(适用于较大文件)工具

以表sakila.actor为例

CREATE TABLE `actor` (
`actor_id` smallint(5) unsigned NOT NULL AUTO_INCREMENT,
`first_name` varchar(45) NOT NULL,
`last_name` varchar(45) NOT NULL,
`last_update` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`actor_id`),
KEY `idx_actor_last_name` (`last_name`)
) ENGINE=InnoDB AUTO_INCREMENT=201 DEFAULT CHARSET=utf8

首先恢复表结构信息
1.解析系统表空间获取page信息

./stream_parser -f /var/lib/mysql/ibdata1

2.新建一个schema,把系统字典表的DDL导入

cat dictionary/SYS_* | mysql recovered

3.创建恢复目录

mkdir -p dumps/default

4.解析系统表空间包含的字典表信息,

./c_parser -4f pages-ibdata1/FIL_PAGE_INDEX/0000000000000001.page -t dictionary/SYS_TABLES.sql > dumps/default/SYS_TABLES 2> dumps/default/SYS_TABLES.sql
./c_parser -4f pages-ibdata1/FIL_PAGE_INDEX/0000000000000002.page -t dictionary/SYS_COLUMNS.sql > dumps/default/SYS_COLUMNS 2> dumps/default/SYS_COLUMNS.sql
./c_parser -4f pages-ibdata1/FIL_PAGE_INDEX/0000000000000003.page -t dictionary/SYS_INDEXES.sql > dumps/default/SYS_INDEXES 2> dumps/default/SYS_INDEXES.sql
./c_parser -4f pages-ibdata1/FIL_PAGE_INDEX/0000000000000004.page -t dictionary/SYS_FIELDS.sql > dumps/default/SYS_FIELDS 2> dumps/default/SYS_FIELDS.sql

5.导入恢复的数据字典

cat dumps/default/*.sql | mysql recovered

6.读取恢复后的表结构信息

./sys_parser -pmsandbox -d recovered sakila/actor

由于5.x 版本 innodb引擎并非完整记录表结构信息,会丢失AUTO_INCREMENT属性、二级索引和外键约束,DECIMAL精度等信息。

若是mysql 5.5版本 frm文件被从系统删除,在原目录下touch与原表名相同的frm文件,还能读取表结构信息和数据。若只有frm文件,想要获得表结构信息,可使用mysqlfrm --diagnostic /path/to/xxx.frm,连接mysql会显示字符集信息。

  • innodb_file_per_table=OFF

因为是共享表空间模式,数据页都存储在ibdata1,可以从ibdata1文件中提取数据。
1.获取表的table id,sys_table存有表的table id,sys_table表index id是1,所以从0000000000000001.page获取表id

./c_parser -4Df pages-ibdata1/FIL_PAGE_INDEX/0000000000000001.page -t dictionary/SYS_TABLES.sql | grep sakila/actor
000000000B28  2A000001430D4D  SYS_TABLES  "sakila/actor"  158  4  1 0   0   ""  0
000000000B28  2A000001430D4D  SYS_TABLES  "sakila/actor"  158  4  1 0   0   ""  0

2.利用table id获取表的主键id,sys_indexes存有表索引信息,innodb索引组织表,找到主键id即找到数据,sys_indexes的index id是3,所以从0000000000000003.page获取主键 id

./c_parser -4Df pages-ibdata1/FIL_PAGE_INDEX/0000000000000003.page -t dictionary/SYS_INDEXES.sql | grep 158
000000000B28    2A000001430BCA  SYS_INDEXES     158     376     "PRIMARY"       1       3       0       4294967295
000000000B28    2A000001430C3C  SYS_INDEXES     158     377     "idx\_actor\_last\_name"        1       0       0       4294967295
000000000B28    2A000001430BCA  SYS_INDEXES     158     376     "PRIMARY"       1       3       0       4294967295
000000000B28    2A000001430C3C  SYS_INDEXES     158     377     "idx\_actor\_last\_name"        1       0       0       4294967295

3.知道了主键id,就可以从对应page中提取表数据,并生成sql文件。

./c_parser -4f pages-ibdata1/FIL_PAGE_INDEX/0000000000000376.page -t sakila/actor.sql > dumps/default/actor 2> dumps/default/actor_load.sql

4.最后导入恢复的数据

cat dumps/default/*.sql | mysql sakila
  • innodb_file_per_table=ON

这种情况恢复步骤与上述基本一致,但由于是独立表空间模式,数据页存储在各自的ibd文件,ibd文件删除了,无法通过ibdata1提取数据页,所以pages-ibdata1目录找不到数据页,stream_parser要从块设备中读取数据页信息。扫描完成后,在pages-sda1目录下提取数据。

./stream_parser -f /dev/sda1 -t 1000000k

场景2:Corrupted InnoDB table

在InnoDB表发生损坏,即使innodb_force_recovery=6也无法启动MySQL
日志中可能会出现类似报错

InnoDB: Database page corruption on disk or a failed
InnoDB: file read of page 4.

此时的恢复策略需要将数据页从独立表空间中提取出,再删除表空间,重新创建表导入数据。
1.先获得故障表的主键index id
2.通过index id page获取到数据记录

select t.name, t.table_id, i.index_id, i.page_no from INNODB_SYS_TABLES t join INNODB_SYS_INDEXES i on t.table_id=i.table_id and t.name='test/sbtest1';

3.由于数据页可能有部分记录损坏,需要过滤掉“坏”的数据,保留好的数据
例如:前两行记录实际是“坏”数据,需要过滤掉。

root@test:~/recovery/undrop-for-innodb# ./c_parser -6f pages-actor.ibd/FIL_PAGE_INDEX/0000000000000015.page -t sakila/actor.sql > dumps/default/actor 2> dumps/default/actor_load.sql
root@test:~/recovery/undrop-for-innodb# cat dumps/default/actor
-- Page id: 3, Format: COMPACT, Records list: Invalid, Expected records: (0 200)
72656D756D07    08000010002900  actor   30064   "\0\0\0\0"      ""      "1972-09-20 23:07:44"
1050454E454C    4F50454755494E  actor   19713   "ESSC▒" ""      "2100-08-09 07:52:36"
00000000051E    9F0000014D011A  actor   2       "NICK"  "WAHLBERG"      "2006-02-15 04:34:33"
00000000051E    9F0000014D0124  actor   3       "ED"    "CHASE" "2006-02-15 04:34:33"
00000000051E    9F0000014D012E  actor   4       "JENNIFER"      "DAVIS" "2006-02-15 04:34:33"
00000000051E    9F0000014D0138  actor   5       "JOHNNY"        "LOLLOBRIGIDA"  "2006-02-15 04:34:33"
00000000051E    9F000001414141  actor   6       "AAAAA" "AAAAAAAAA"     "2004-09-10 01:53:05"
00000000051E    9F0000014D016A  actor   10      "CHRISTIAN"     "GABLE" "2006-02-15 04:34:33"
...

可以在sql文件中加上筛选条件,比如:通过actor_id做范围筛选,再用新的sql文件读数据页。

CREATE TABLE `actor` (
  `actor_id` smallint(5) unsigned NOT NULL AUTO_INCREMENT
    /*!FILTER
     int_min_val: 1
     int_max_val: 300 */,
  `first_name` varchar(45) NOT NULL,
  `last_name` varchar(45) NOT NULL,
  `last_update` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`actor_id`),
  KEY `idx_actor_last_name` (`last_name`)
) ENGINE=InnoDB AUTO_INCREMENT=201 DEFAULT CHARSET=utf8;

4.删除故障表文件,innodb_force_recovery=6启动MySQL,启动后删除元数据
5.创建新表导入恢复好的数据

疑问:如何知道丢失了多少记录?
读取数据页时开头会显示期望的记录数,最后会显示实际恢复的记录数,差值便是丢失记录数

-- Page id: 3, Format: COMPACT, Records list: Invalid, Expected records: (0 200)
-- Page id: 3, Found records: 197, Lost records: YES, Leaf page: YES

场景3:磁盘或文件系统损坏如何恢复数据

这种情况下尽快保护损坏的块设备不要再写入,并用 dd 工具读取镜像数据用作恢复
本地方式

dd if=/dev/sdb of=/path/to/faulty_disk.img  conv=noerror

远程方式

remote server> nc -l 1234 > faulty_disk.img
local server> dd if=/dev/sdb of=/dev/stdout  conv=noerror | nc a.b.c.d 1234

保存好磁盘镜像后,后续恢复操作参考场景2。

总结

1.千万不要在服务运行时把copy数据文件作为备份方式,看似备份了数据,但实际数据是不一致的。
2.正确的使用物理备份工具xtrabackup/meb或逻辑备份方式。
3.对备份数据要定期进行恢复验证测试。

希望你永远不会用到这些方法,做好备份,勤验证!

参考
https://twindb.com/how-to-rec...
https://twindb.com/recover-co...
https://twindb.com/take-image...
https://twindb.com/data-loss-...
https://twindb.com/repair-cor...
https://twindb.com/resolving-...
https://dev.mysql.com/doc/ref...

爱可生开源社区
426 声望207 粉丝

成立于 2017 年,以开源高质量的运维工具、日常分享技术干货内容、持续的全国性的社区活动为社区己任;目前开源的产品有:SQL审核工具 SQLE,分布式中间件 DBLE、数据传输组件DTLE。