OceanBase 4.X-2F1A 仲裁高可用方案初探

作者：郑增权，爱可生 DBA 团队成员，OceanBase 和 MySQL 数据库技术爱好者。
爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。
本文约 1500 字，预计阅读需要 5 分钟。

背景

对于分布式数据库来说，当多个数据副本间发生半数异常时（一半副本故障或与另一半网络隔离），可以通过集群之外的仲裁服务来参与变更决策（选主/成员组变更），进而恢复服务。OceanBase 数据库 V4.1.0 版本开始支持仲裁服务（Arbitratrion Service）。

某客户基于节约成本的想法，欲使用 OceanBase 仲裁服务功能，架构副本类型如下：

集群架构：1-1-1
副本类型为：2F1A（2 个全能型副本 + 1 个仲裁服务节点）

存在的疑虑：

1 个全能型副本（Leader）发生故障后租户能否正常读写？
2 个全能型副本发生可恢复的故障，均触发永久下线，后续启动 OBServer 后集群能否恢复正常？

本文基于如上 2 个问题展开实验，记录相关过程和结果，为类似需求评估提供参考。

环境信息

CentOS Linux release 7.5.1804 (Core)
OCP 云平台：4.2.0
OceanBase：4.2.1.4
测试租户：mysql_ob
租户模式：MySQL
租户规格：1.5C6G

实验过程

故障前

查看 mysql_ob 租户日志流，可以看到有 3 个日志流。

select tenant_id,ls_id from oceanbase.CDB_OB_TABLET_TO_LS where tenant_id = 1002 group by LS_ID;

查看集群普通副本节点状态。
```
SELECT * FROM oceanbase.DBA_OB_SERVERS;
```
查看业务租户 mysql_ob 的 leader/follower 角色信息。
161 节点为 leader

163 节点为 follower

select b.tenant_name,a.tenant_id,a.ls_id,a.zone,a.svr_ip,a.role from cdb_ob_table_locations  a join __all_tenant b on a.tenant_id = b.tenant_id where a.tenant_id = 1002 group by role;

查看仲裁服务节点

164 节点为仲裁服务节点

select * from DBA_OB_ARBITRATION_SERVICE;

租户 mysql_ob 为 2F1A 架构（2F：10.186.64.161/163 ， 1A：10.186.64.164）。
查看仲裁节点与其他节点联通性。
ACTIVE： 表示仲裁服务与该节点通信正常。所有节点均通信正常才可以为租户开启仲裁服务。
INACTIVE： 表示仲裁服务与该节点无法通信。无法为租户开启仲裁服务，需要排查节点与仲裁服务之间的网络通信情况。

SELECT * FROM oceanbase.GV$OB_ARBITRATION_SERVICE_STATUS;

查看租户的仲裁服务状态
ENABLED： 表示租户已开启仲裁服务。
DISABLED： 表示租户已关闭仲裁服务。
ENABLING： 表示租户正在开启仲裁服务。
DISABLING： 表示租户正在关闭仲裁服务。

select TENANT_ID,TENANT_NAME,PRIMARY_ZONE,STATUS,TENANT_ROLE,SWITCHOVER_STATUS,ARBITRATION_SERVICE_STATUS from DBA_OB_TENANTS;

查看永久下线时间参数。

show parameters like 'server_permanent_offline_time';

永久下线时间调整为 60s。

ALTER SYSTEM SET server_permanent_offline_time='60s';
show parameters like 'server_permanent_offline_time';

启动脚本，持续往 evan.time_table 表写入数据。

启动另一个脚本，持续 select evan.time_table 表的最新数据。

4.2 施加故障

模拟故障：kill 掉第 1 个全能型副本

业务租户 leader 节点执行。

ps -ef | grep observer | grep -v "grep"
date && kill -9 $(ps aux | grep "observer" | grep -v "grep" | awk '{print $2}') && ps -ef | grep observer | grep -v grep && date

4.3 故障后观察

查看脚本写入状态是否正常。

查看脚本 select 是否正常。

查看业务租户 leader/follower 角色信息。

确认触发日志流降级。

当故障副本（包括已降级的副本）总数等于全功能副本总数的一半时，仲裁服务才会执行日志流降级操作。

SELECT * FROM oceanbase.DBA_OB_SERVER_EVENT_HISTORY WHERE EVENT LIKE "%DEGRADE%" AND VALUE1 = 1002 AND TIMESTAMP >= '2024-05-06 15:53%' ORDER BY 1 ;

确认节点状态变成 INACTIVE。
```
SELECT * FROM oceanbase.DBA_OB_SERVERS;
```
查看仲裁节点与其他节点联通性。

无法与 161 节点联通。

SELECT * FROM oceanbase.GV$OB_ARBITRATION_SERVICE_STATUS;

确认旧 leader 161 节点触发永久下线（预期 60s 后永久下线）。

select * from __all_rootservice_event_history where event='permanent_offline' and gmt_create like '2024-05-06%' \G

查询 kill 掉第 1 个 observer 时间点前后，业务表 time_table 实际是否有数据插入失败。

select * from evan.time_table where time >= '2024-05-06 15:53:37' order by time limit 20;

施加故障

故障模拟：kill 掉第 2 个全能型副本。

业务租户 follower 节点执行。

ps -ef | grep observer | grep -v "grep"
date && kill -9 $(ps aux | grep "observer" | grep -v "grep" | awk '{print $2}') && ps -ef | grep observer | grep -v grep && date

故障后观察

查看脚本 insert 数据是否正常。

处于异常状态。

查看脚本 select 数据是否正常。

处于异常状态。

查看业务租户 leader/follower 角色信息。

无主状态，执行 SQL 超时。

select b.tenant_name,a.tenant_id,a.ls_id,a.zone,a.svr_ip,a.role from cdb_ob_table_locations  a join __all_tenant b on a.tenant_id = b.tenant_id where a.tenant_id = 1002 group by role;

确认日志流降级。

SELECT * FROM oceanbase.DBA_OB_SERVER_EVENT_HISTORY WHERE EVENT LIKE "%DEGRADE%" AND VALUE1 = 1002 AND TIMESTAMP >= '2024-05-06 16%' ORDER BY 1 ;

确认节点状态变成 INACTIVE。
```
SELECT * FROM oceanbase.DBA_OB_SERVERS;
```

查看仲裁节点与其他节点联通性。

161 和 163 节点均无法联通。

确认节点触发永久下线（预期 60s 后永久下线）。

161 和 163 节点均被标记永久下线。

select * from __all_rootservice_event_history where event='permanent_offline' and gmt_create like '2024-05-06%' \G

查询 kill 掉第 2 个 observer 时间点前后，业务表 time_table 实际是否有数据插入失败。

租户故障期间无法查询，恢复正常后补图。

select * from evan.time_table where time >= '2024-05-06 16:04:25' order by time limit 20;

确认租户处于无主状态。
查看最近 30 分钟是否有原主租约过期的情况。

161 和 163 节点均存在租约过期记录。

SELECT * FROM __all_rootservice_event_history WHERE module = 'server' AND event = 'lease_expire' AND gmt_create > usec_to_time(time_to_usec(now())-3600*1000000) ORDER BY gmt_create;

在 observer 全能型副本的主机上确认日志打印信息存在 4038 错误码。

cd /home/admin/oceanbase/log && grep "ret=-4038" observer.log

修复故障

辨别启动 OBServer 节点的先后顺序。

由于此时租户已经不满足多数派，处于故障状态，我们应该先启动故障时间较晚的 OBServer 节点，再启动故障时间较早的 OBServer 节点。（通过 observer.log 最后写入的时间点做判断）

tail -1 /home/admin/oceanbase/log/observer.log

启动 163 节点。

根据上一步骤判断 163 节点 observer.log 较新。

su - admin
cd /home/admin/oceanbase
date && ./bin/observer
ps -ef | grep observer | grep -v "grep"

确认 insert 脚本状态。

16:24:56 写入数据成功。

确认 select 脚本状态。

16:24:55 读取数据成功（脚本打印时间每隔1秒打印一次，存在细微误差属正常情况）。

确认 163 节点状态变成 ACTIVE。

SELECT * FROM oceanbase.DBA_OB_SERVERS;

启动 161 节点。

根据之前的步骤判断 161 节点 observer.log 较旧，后启动。

su - admin
cd /home/admin/oceanbase
date && ./bin/observer
ps -ef | grep observer | grep -v "grep"

确认 161 节点 OBServer 状态变成 ACTIVE。

SELECT * FROM oceanbase.DBA_OB_SERVERS;

确认 insert 脚本状态。

正常写入。

确认 select 脚本状态。

正常读取。

通过 oceanbase.DBA_OB_UNIT_JOBS 视图查看数据补全进度。

如果查询结果为空，则表示 Unit 迁移完成，数据补全成功。

SELECT * FROM oceanbase.DBA_OB_UNIT_JOBS WHERE JOB_TYPE = 'MIGRATE_UNIT';

查看测试表 time_table 的 tenant_id 和 ls_id（日志流 ID）。

SELECT TENANT_ID, LS_ID FROM oceanbase.CDB_OB_TABLET_TO_LS WHERE TABLET_ID = (SELECT DATA_OBJECT_ID FROM oceanbase.CDB_OBJECTS WHERE OBJECT_NAME ='time_table' AND OBJECT_TYPE='TABLE');

查看测试表 time_table 对应日志流的选举记录。

lease_time：当 Root Service 累计超过 lease_time 时间没有收到过某节点的任意心跳数据包时，Root Service 认为该 observer 进程短暂断线，Root Service 会标记该节点的心跳状为 lease_expired。

SELECT * FROM DBA_OB_SERVER_EVENT_HISTORY WHERE MODULE LIKE '%ELECTION%' and TIMESTAMP >= '2024-05-06 15:53:37' AND NAME1 = 'TENANT_ID' AND VALUE1 = '1002' AND NAME2 = 'LS_ID' AND VALUE2 =1001 ORDER BY TIMESTAMP;

永久下线时间改回原值并确认生效。

ALTER SYSTEM SET server_permanent_offline_time='3600s';
show parameters like 'server_permanent_offline_time';

时间线梳理

时间线

将永久下线时间参数 server_permanent_offline_time 调成 60s
2024-05-06 15:53:39 kill 掉 161 节点全能型副本节点（leader）
2024-05-06 15:53:39 ～ 15:53:43 约持续 5s，insert 脚本未写入数据，select 脚本未读到数据
leader 节点由 161 切至 163
2024-05-06 15:53:43 161节点触发日志流降级，原因：CRASHED_OR_BROKEN_NETWORK
2024-05-06 15:54:39 161 节点被标记永久下线
2024-05-06 16:04:28 kill 掉 163 节点全能型副本节点（新 leader）
2024-05-06 16:04:28 租户开始进入读写异常状态
确认两个全能型副本状态都为：INACTIVE
仲裁服务节点与 2 个异常节点联通异常
2024-05-06 16:05:35 163 节点被标记永久下线
租户处于无主状态
2024-05-06 16:22:53 启动 163 节点全能型副本节点（后被 kill，先启动）
2024-05-06 16:24:55 租户恢复正常读写
2024-05-06 16:36:29 启动 161 节点全能型副本节点
将永久下线时间参数 server_permanent_offline_time 调回3600s

小结

kill 掉 1 个全能型副本节点后（leader），租户存在约5s读写异常，后续恢复正常。
kill 掉 2 个全能型副本节点后，租户进入无主状态，读写状态异常。
启动 163 节点全能型副本节点，可正常加回集群，约 117s 后租户读写恢复正常。
启动 161 节点全能型副本节点后，可正常加回集群。

结论

1 个全能型副本（leader）发生故障后租户能否正常读写？

结论：租户切主期间短暂读写异常，后续恢复正常读写。

2 个全能型副本发生可恢复的故障，均触发永久下线，后续启动OBServer后集群能否恢复正常？

结论：可恢复正常。

需注意的点：极端情况下如果第二个全能型副本也发生故障且无法恢复，之后即使第一个全能型副本恢复了，也会有数据丢失，原因是仲裁成员不存储 Redo 日志。
综上，成本敏感或预算有限且能承受可能丢失数据的情况可以选择 OceanBase 2F1A 仲裁高可用方案，若期望数据不丢失建议选择全功能型副本高可用方案。

后记

仲裁服务两个典型的应用场景在于 “自动选主提升同城自动容灾能力” 和 “降低跨城带宽提升两地三中心稳定性”，感兴趣的读者可查看《OceanBase 助力企业应对数据库转型深水区挑战》中关于仲裁服务章节的内容。

OceanBase 4.X-2F1A 仲裁高可用方案初探

背景

相关术语

OceanBase 数据库仲裁服务

日志流

日志流降级

环境信息

实验过程

故障前

4.2 施加故障

4.3 故障后观察

施加故障

故障后观察

修复故障

时间线梳理

时间线

小结

结论

后记

爱可生开源社区

引用和评论

如何巧妙解决 Too many connections 报错？

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

MySQL慢查询日志：性能优化的终极指南

Devin 发布 DeepWiki，2 星的项目直接装出万星的气场

好用的开源埋点方案-ClkLog埋点用户分析系统

DNS服务器地址大全

实战分享：DolphinScheduler 中 Shell 任务环境变量最佳配置方式