简介: 本篇来介绍一下PolarDB-X全局binlog在性能方面的一些设计和思考,先通过几个实际的测试案例来展示全局binlog的性能情况,然后结合这些案例来深入讲解全局binlog关于优化的故事。本篇来介绍一下PolarDB-X全局binlog在性能方面的一些设计和思考,先通过几个实际的测试案例来展示全局binlog的性能情况,然后结合这些案例来深入讲解全局binlog关于优化的故事。测试准备准备一个PolarDB-X 2.0实例,本文测试所用实例版本为5.4.14-16576195,实例配置如下:实例拓扑:8CN + 8DN + 2CDC单CN节点规格:32核128GB单DN节点规格:32核128GB单CDC节点规格:16核32GB准备两台ECS压测机,机器配置:64核128G名词解释EPSEvent Per Second,每秒写入binlog文件的event个数DML EPSDML Event Per Second,每秒写入binlog文件的dml event个数,所谓dml event特指binlog中的TableMapEvent、WriteRowsEvent、UpdateRowsEvent和DeleteRowsEventBPSByte Per Second,每秒写入binlog文件的字节数,后文为表达方便,采用M/s来作为计量单位TPSTransaction Per Second,每秒钟写入binlog文件的事务个数FPMFile Per Minute,每分钟生成binlog文件的个数,单个文件大小500MDelay Time延迟时间,单位ms测试方案TPCC测试方法参见:https://help.aliyun.com/docum...本测试案例,TPCC核心参数的配置如下:warehouses=2000loadWorkers=500terminals=1024runLoader.sh 中JVM参数配置 -Xms60g -Xmx60grunBenchmark.sh 中JVM参数配置 -Xms60g -Xmx60g场景一:TPCC数据导入测试目的在进行压测数据导入时,DN节点会瞬时产生大量物理binlog,借此观察全局binlog的性能指标情况测试方式在每台ECS上面分别部署多份tpcc程序包,同时运行多个./runDatabaseBuild.sh,来构造流量场景二:TPCC交易测试测试目的执行TPCC测试,模拟真实交易场景,考察全局binlog的性能情况(重点关注延迟)测试方式调整压测并发度,构造不同的tmpC参考指标,观察全局binlog延迟指标。由于8CN+8DN在压力打满的情况下,全局binlog的延迟依然比较低,所以下面的测试,不局限于8CN+8DNSysbench测试方法参见: https://help.aliyun.com/docum...场景一:Sysbench数据导入测试目的在进行压测数据导入时,DN节点会瞬时产生大量物理binlog,借此观察全局binlog的性能指标情况测试方式调整--tables和--threads的参数值,测试不同压力状态下全局binlog的性能指标场景二:Sysbench oltp_write_only测试目的执行sysbench oltp_write_only,测试混合写入场景下,全局binlog性能情况测试方式执行oltp_write_only,构造不同qps参考指标,观察全局binlog延迟情况Large Transaction测试目的测试超大事务场景下,CDC的性能情况和稳定性,重点关注延迟时间测试方式参考如下脚本,构造不同大小的事务,进行测试,按如下脚本,每插入20w条数据可以构造一个500M大小的事务CREATE TABLE t_1
(id bigint(20) NOT NULL AUTO_INCREMENT,
c_bit_1 bit(1) DEFAULT NULL,
c_bit_8 bit(8) DEFAULT NULL,
c_bit_16 bit(16) DEFAULT NULL,
c_bit_32 bit(32) DEFAULT NULL,
c_bit_64 bit(64) DEFAULT NULL,
c_tinyint_1 tinyint(1) DEFAULT NULL,
c_tinyint_4 tinyint(4) DEFAULT NULL,
c_tinyint_8 tinyint(8) DEFAULT NULL,
c_tinyint_8_un tinyint(8) unsigned DEFAULT NULL,
c_smallint_1 smallint(1) DEFAULT NULL,
c_smallint_16 smallint(16) DEFAULT NULL,
c_smallint_16_un smallint(16) unsigned DEFAULT NULL,
c_mediumint_1 mediumint(1) DEFAULT NULL,
c_mediumint_24 mediumint(24) DEFAULT NULL,
c_mediumint_24_un mediumint(24) unsigned DEFAULT NULL,
c_int_1 int(1) DEFAULT NULL,
c_int_32 int(32) DEFAULT NULL,
c_int_32_un int(32) unsigned DEFAULT NULL,
c_bigint_1 bigint(1) DEFAULT NULL,
c_bigint_64 bigint(64) DEFAULT NULL,
c_bigint_64_un bigint(64) unsigned DEFAULT NULL,
c_decimal decimal DEFAULT NULL,
c_decimal_pr decimal(10,3) DEFAULT NULL,
c_float float DEFAULT NULL,
c_float_pr float(10,3) DEFAULT NULL,
c_float_un float(10,3) unsigned DEFAULT NULL,
c_double double DEFAULT NULL,
c_double_pr double(10,3) DEFAULT NULL,
c_double_un double(10,3) unsigned DEFAULT NULL,
c_date date DEFAULT NULL COMMENT 'date',
c_datetime datetime DEFAULT NULL,
c_timestamp timestamp DEFAULT CURRENT_TIMESTAMP,
c_time time DEFAULT NULL,
c_year year DEFAULT NULL,
c_year_4 year(4) DEFAULT NULL,
c_char char(50) DEFAULT NULL,
c_varchar varchar(50) DEFAULT NULL,
c_binary binary(200) DEFAULT NULL,
c_varbinary varbinary(200) DEFAULT NULL,
c_blob_tiny tinyblob DEFAULT NULL,
c_blob blob DEFAULT NULL,
c_blob_medium mediumblob DEFAULT NULL,
c_blob_long longblob DEFAULT NULL,
c_text_tiny tinytext DEFAULT NULL,
c_text text DEFAULT NULL,
c_text_medium mediumtext DEFAULT NULL,
c_text_long longtext DEFAULT NULL,
c_enum enum('a','b','c') DEFAULT NULL,
c_set set('a','b','c') DEFAULT NULL,
c_testcase varchar(10) DEFAULT NULL,
PRIMARY KEY (id) )ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COMMENT='10000000' dbpartition by hash(id) tbpartition by hash(id) tbpartitions 8;INSERT t_1 (c_bit_1 , c_bit_8 , c_bit_16 , c_bit_32 , c_bit_64 , c_tinyint_1 , c_tinyint_4 , c_tinyint_8 , c_tinyint_8_un , c_smallint_1 , c_smallint_16 , c_smallint_16_un , c_mediumint_1 , c_mediumint_24 , c_mediumint_24_un , c_int_1 , c_int_32 , c_int_32_un , c_bigint_1 , c_bigint_64 , c_bigint_64_un , c_decimal , c_decimal_pr , c_float , c_float_pr , c_float_un , c_double , c_double_pr , c_double_un , c_date , c_datetime , c_timestamp , c_time , c_year , c_year_4 , c_char , c_varchar , c_binary , c_varbinary , c_blob_tiny , c_blob , c_blob_medium , c_blob_long , c_text_tiny , c_text , c_text_medium , c_text_long , c_enum , c_set , c_testcase)
VALUES(
b'1' , b'11111111' , b'1111111111111111' , b'11111111111111111111111111111111' , b'1111111111111111111111111111111111111111111111111111111111111111' , '82' , '-101' , '-75' ,'253' , '14497' , '5070' , '9427' , '-5888259' , '-1845105' , '2350597' , '-2147483648' , '-2147483648' , '3653062473' , '-816854218224922624' , '7292572323853307904' , '2902765992697493504' , '-1613793319' , '1223077.292' , '9.1096275E8' , '-5839673.5' , '2648.644' , '4.334081673614155E9' , '6973286.176' , '7630560.182' , '2019-02-15' , '2019-02-15 14:54:41' , '2019-02-15 14:54:41' , '20:12:46' , '2019' , '2019', 'xxx','int a = max(4,5)','xxxxxxx','varchar a = ','xxkdkwjsjdfdsk','varchar a = ',';sdjfaljdljfsljldjlsjdljflsjdlfjsaljdlfhahdljflajdlfasdf','int a = max(4,5)','xxx','sdjflshdflsjlfa;;dfjadjfahdfhklsajdfklsafasjlfjls',repeat('a',1024),repeat('a',1024), 'a', 'a', 'caseNo1');INSERT t_1 ( c_bit_1 , c_bit_8 , c_bit_16 , c_bit_32 , c_bit_64 , c_tinyint_1 , c_tinyint_4 , c_tinyint_8 , c_tinyint_8_un , c_smallint_1 ,
c_smallint_16 , c_smallint_16_un , c_mediumint_1 , c_mediumint_24 , c_mediumint_24_un , c_int_1 , c_int_32 , c_int_32_un , c_bigint_1 , c_bigint_64
, c_bigint_64_un , c_decimal , c_decimal_pr , c_float , c_float_pr , c_float_un , c_double , c_double_pr , c_double_un , c_date , c_datetime , c_timestamp , c_time , c_year , c_year_4 , c_char , c_varchar , c_binary , c_varbinary , c_blob_tiny , c_blob , c_blob_medium , c_blob_long , c_text_tiny , c_text , c_text_medium , c_text_long , c_enum , c_set , c_testcase) select c_bit_1 , c_bit_8 , c_bit_16 , c_bit_32 , c_bit_64 , c_tinyint_1 , c_tinyint_4 , c_tinyint_8 , c_tinyint_8_un , c_smallint_1 , c_smallint_16 , c_smallint_16_un , c_mediumint_1 , c_mediumint_24 , c_mediumint_24_un , c_int_1 , c_int_32 , c_int_32_un , c_bigint_1 , c_bigint_64 , c_bigint_64_un , c_decimal , c_decimal_pr , c_float , c_float_pr , c_float_un , c_double , c_double_pr , c_double_un , c_date , c_datetime , c_timestamp , c_time , c_year , c_year_4 , c_char , c_varchar , c_binary , c_varbinary , c_blob_tiny , c_blob , c_blob_medium , c_blob_long , c_text_tiny , c_text , c_text_medium , c_text_long , c_enum , c_set , c_testcase from t_1;测试报告先给出汇总后的测试报告,再进行详细介绍,测试数据如下:测试场景参考指标DelayTimeEPSBPSTPCC数据导入4000仓/600并发300ms10w/s350M/sTPCC数据导入8000仓/1200并发700ms15w/s450M/s-500M/sTPCC数据导入12000仓/1800并发1s-60s15w/s450M/s-500M/sSysbench数据导入32Tables/32并发500ms180w/s140M/sSysbench数据导入48Tables/48并发1s210w/s170M/sSysbench数据导入64Tables/64并发1s-70s220w/s180M/sTPCC交易测试50w tpmC400ms60w/s130M/sTPCC交易测试100w tpmC500ms120w/s250M/sTPCC交易测试150w tpmC1s-4s170w/s350M/sSysbench Oltp_write_only20w QPS500ms130w/s125M/sSysbench Oltp_write_only30w QPS600ms180w/s170M/sSysbench Oltp_write_only35w QPS1s-18s210w/s200M/s大事务500M2s24w/s500M/s大事务1G4.8s24w/s500M/s大事务2G7.8s24w/s500M/s大事务3G9.4s24w/s500M/s大事务4G12.5s24w/s500M/s大事务5G(no swap)17s24w/s500M/s大事务5G(with swap)25s22w/s350M/s大事务10G(with swap)55s22w/s350M/s大事务20G(with swap)115s22w/s350M/sTPCC数据导入Test With 2 ClientEPS: 10w/s,DML EPS: 6w/s
图片
BPS: 350M/s,FPM: 40个/m
图片
TPS: 11000/s
图片
Delay Time: 300ms
图片
另附CDC进程GC情况:内存使用率不高、GC平稳、无老年代GC
图片
综述:两个client场景下(4000仓/600并发),写入吞吐平均值约350M/s,延迟时间在300ms左右,完全无压力Test With 4 ClientEPS: 14w/s ~ 16w/s,DML EPS: 7.5w/s ~ 9w/s
图片
BPS: 450M/s ~ 500M/s,FPM: 52个/m ~ 60个/m
图片
TPS: 15000/s
图片
Delay Time: 700ms,最大延迟抖动10S
图片
另附CDC进程GC情况:老年代内存使用率略有提升、GC平稳、无老年代GC
图片
综述:四个client场景下(8000仓/1200并发),基本无压力,写入吞吐在450M/s~500M/s,延迟时间总体上可以维持在1S以下,最大延迟抖动10S且有一定的持续时间,其它大部分指标相比两个client场景基本可以达到翻倍Test With 6 ClientEPS: 14w/s ~ 16w/s,DML EPS: 8w/s ~ 9w/s
图片
BPS: 450M/s ~ 500M/s,FPM: 55个/m ~ 60个/m
图片
TPS: 15000/s
图片
Delay Time: 延迟呈递增趋势,最大延迟1分钟
图片
另附CDC进程GC情况:缓冲区开始出现积压,老年代使用率提升明显
图片
另附CDC文件写入线程CPU使用率情况
图片
综述:六个client场景下(12000仓/1800并发),延迟开始出现增长,数据导入时长20min,触发最大延迟60S,其它指标和4个Client场景下相比基本持平,主要瓶颈点在文件写入线程,CPU使用率已经达到了100%,每秒500M左右的写入速度目前是全局binlog能支持的最大吞吐,后序进一步的优化进展会在本文持续更新,敬请关注Sysbench数据导入Test With 32 Tablessysbench --config-file='sysb.conf' --create-table-options='dbpartition by hash(id) tbpartition by hash(id) tbpartitions 8' --tables='32' --threads='32' --table-size='10000000' oltp_point_select prepareEPS: 180w/s,DML EPS: 60w/s
图片
BPS: 140M/s,FPM: 17个/m
图片
TPS: 30w/s
图片
Delay Time: 500ms,最大延迟抖动2s
图片
综述:32张表并行插入场景下,延迟基本可以控制在1s以内。相比TPCC导数据,Sysbench场景下EPS指标呈现了数十倍的提升,但BPS指标则要低很多,主要是因为Sysbench的表比较小,插入逻辑也简单直接,所以数据插入的rps(record per second)很高但流量并不是很大,各项指标对比见下表:指标项TPCCSysbenchEPS14w/s ~ 16w/s170w/sDML EPS7.5w/s ~ 9w/s60w/sBPS450M/s ~ 500M/s140M/sTPS15000/s30w/sDelay Time700ms500msFPM52个/m ~ 60个/m17个/mTest With 48 Tablessysbench --config-file='sysb.conf' --create-table-options='dbpartition by hash(id) tbpartition by hash(id) tbpartitions 8' --tables='48' --threads='48' --table-size='10000000' oltp_point_select prepareEPS: 210w/s,DML EPS: 接近70w/s
图片
BPS: 170M/s
图片
TPS: 36w/s,FPM: 20个/m
图片
Delay Time: 1s,最大延迟10s
图片
综述:48张表并行插入场景下,各项指标有了小幅度提升,延迟时间总体在1s左右,最大10s。Test With 64 Tablessysbench --config-file='sysb.conf' --create-table-options='dbpartition by hash(id) tbpartition by hash(id) tbpartitions 8' --tables='64' --threads='64' --table-size='10000000' oltp_point_select prepareEPS: 220w/s,DML EPS: 接近75w/s
图片
BPS: 180M/s
图片
TPS: 37w/s,FPM: 21个/m
图片
Delay Time: 最大延迟70s
图片
综述:64张表并行插入场景下,各项指标有了小幅度提升,延迟时间开始增大,最大延迟时间70s。因涉及全局排序和事务合并,以及需要对每个event进行checksum的计算,目前全局binlog可支持的最大EPS在220w/S左右,后序进一步的优化进展会在本文持续更新,敬请关注TPCC交易测试50w-55w tpmCtpmC: 50w/m ~ 55w/m
图片
EPS: 60w/s,DML EPS: 37w/s ~ 40w/s
图片
BPS: 130M/s,FPM: 15个/m
图片
TPS: 18000/s
图片
Delay Time: 400ms
图片
综述:tpmC 50w/m ~ 55w/m,Tps 18000/s, 全局binlog延迟400ms左右, DML EPS平均在37w/s左右,BPS 130M/s左右100w-105w tpmCtpmC: 100w/m ~ 105w/m
图片
EPS: 120w/s,DML EPS: 75w/s
图片
BPS: 250M/s,FPM: 30个/m
图片
TPS: 35000/s
图片
Delay Time: 500ms
图片
综述:tpmC 100w/m~105w/m,Tps 35000/s, 全局binlog延迟500ms左右, DML EPS平均在75w/s左右,BPS 250M/s左右145w-150w tpmCtpmC: 145w/m ~ 150w/m
图片
EPS: 170w/s,DML EPS: 100w/s
图片
BPS: 350M/s,FPM: 42个/m
图片
TPS: 50000/s
图片
Delay Time: 1s ~ 4s。前段和后段延迟在1.5s左右,中段延迟在4s左右,但中段tpmC其实并没有前段高,原因在于在压力打满情况下,偶发抖动都会导致延迟时间的变化,多次复测并不是每次都会达到4s延迟,这里取一个最坏的测试结果,150w tpmC场景下常规延迟时间大概在2s左右
图片
综述:tpmC 145w/m ~ 150w/m,Tps 50000/s, 全局binlog延迟1s-4s左右,EPS 170w/s,DML EPS平均在100w/s左右,BPS 350M/s左右Sysbench oltp_write_only20w qpssysbench --config-file='sysb.conf' --db-ps-mode='disable' --skip-trx='on' --mysql-ignore-errors='all' --tables='16' --table-size='10000000' --threads=300 oltp_write_only runSysbench: 21w+ qps, 5w+ tps
图片
延迟时间:500ms
图片
EPS:130w+, DML EPS:43w+
图片
BPS: 125M/s
图片
30w qpssysbench --config-file='sysb.conf' --db-ps-mode='disable' --skip-trx='on' --mysql-ignore-errors='all' --tables='16' --table-size='10000000' --threads=512 oltp_write_only runSysbench: 30w qps, 7.5w tps
图片
延迟时间:600ms
图片
EPS:180w+, DML EPS:55w+
图片
BPS: 170M/s
图片
35w qpssysbench --config-file='sysb.conf' --db-ps-mode='disable' --skip-trx='on' --mysql-ignore-errors='all' --tables='16' --table-size='10000000' --threads=800 oltp_write_only runSysbench: 35w~40w qps, 9w~10w tps
图片
延迟时间:18s
图片
EPS: 200w+/s, DML EPS:70w+/s
图片
BPS: 200M/s
图片
综述:35w qps压力下,已经接近220w/s的最大EPS能力,压测时间10分钟,最大延迟达到18sLarge Transaction先来介绍几个参数storage.isPersistOn是否开启swap功能,即当内存不足或遇到大事务时,是否支持数据临时swap到磁盘(RocksDB),默认为truestorage.persist.mode持久化模式,可选配置有两个:AUTO和FORCE。AUTO模式下,系统会根据内存使用率自动判断是否需要将数据swap到磁盘;FORCE模式下,系统会强制将数据swap到磁盘storage.persistNewThreshold内存中新增数据触发swap的阈值,即内存使用率达到多大之后,新增数据会被swap到磁盘,默认85%storage.persistAllThreshold内存中存量数据触发swap的阈值,即内存使用率达到多大之后,存量数据会被swap到磁盘,默认95%5G Close Persist单个事务大小5G,关闭swap功能,本测试场景,老年代内存14G,即使考虑到数据膨胀,足够放下5G数据Delay Time: 所有数据完成排序时延迟7s,所有数据输出到全局binlog文件时延迟17s
图片
Task进程内存: 老年代使用率显著提升
图片
综述:关闭持久化,全内存模式下,5G数据在17S内完成同步,老年代内存使用率显著提升5G Force Persist单个事务大小5G,开启swap功能,并将持久化模式设置为FORCEDelay Time: 所有数据完成排序时延迟10s,所有数据输出到全局binlog文件时延迟25s
图片
CDC进程内存情况: 由于采用强制持久化机制,内存占用无起伏
图片
综述:相比close persist模式,强制持久化模式下,延迟增加了8s,老年代内存占用无明显起伏10G Auto Persist With 4G Memory单个事务大小10G,开启swap功能,并将持久化模式设置为AUTO,Task进程内存设置为4G(无法放下10G数据),评测系统的自动持久化能力Delay Time: 所有数据完成排序时延迟23s,所有数据输出到全局binlog文件时延迟55s
图片
Task进程内存: 老年代并未显著上涨
图片
Swap日志:单个局部事务大小超过阈值,直接触发了swap
图片
综述:AUTO模式下,对于大事务的落盘,系统采取了更加积极主动的方式,即使内存使用率还未触发swap阈值,当单个局部事务大小超过阈值之后,也会直接触发swap,并且性能还算不错。之所以引入这种策略,主要原因是:出现大事务时,大概率会触发内存不足,直接触发swap,免去老年代GC的成本swap操作虽然会有一定的损耗,但总体上的延迟还不错,优先考虑稳定性20G Auto Persist With 4G Memory单个事务大小20G,开启swap功能,并将持久化模式设置为AUTO,Task进程内存设置为4G(无法放下20G数据),评测系统的自动持久化能力Delay Time: 所有数据完成排序时延迟49s,所有数据输出到全局binlog文件时延迟115s
图片
Task进程内存: 老年代小幅上涨
图片
Swap日志:单个局部事务大小超过阈值,直接触发了swap
图片
总结本文基于TPCC、Sysbench和Large Transaction3个场景,对全局Binlog的性能和稳定性情况进行了详细介绍,综合来看:写入吞吐可以达到500M/S(30G/min)左右,EPS指标可以达到220W/S左右,且内存使用率维持在较低的水位TPCC场景,在150w tpmC压力下,延迟时间可以控制在4s以内,大部分时间段延迟时间保持在2s左右Sysbench场景,30w QPS压力下,延迟时间可以维持在1s以内,更高压力下由于已经触达220w/s的EPS能力,延迟时间开始增长(继续提升EPS的上限是全局binlog后续的一个重点目标)Large Transaction场景,依托自动swap能力,使用很小的内存可以稳定的同步超大事务,且能保持还不错的性能(继续优化swap的读写能力,延迟时间还有进一步的降低空间)优化无止境,如果对PolarDB-X充满兴趣,可持续关注我们,最新的优化进展会持续更新。本文是全局Binlog性能解读系列的上篇,下篇将从原理层面展开深入介绍,敬请关注。欢迎关注PolarDB-X知乎机构号,阅读更多技术好文。原文链接:https://click.aliyun.com/m/10...本文为阿里云原创内容,未经允许不得转载。


数据库知识分享者
27.8k 声望35.7k 粉丝

数据库知识分享