头图

在数字化转型、十四五规划的大背景 下,大规模上云、分布式的核心改造等“云化”逐渐走进企业。

但是,云化的发展,使企业系统的复杂度呈指数级增长,故障越来越多。

企业在数字化转型中拥抱云计算、 信创国产化、分布式核心等新技术,使企业系统的复杂度呈指数级增长,影响系统稳定。混沌工程被认为是检验、增强系统稳定性的不二选择。

于是,不少企业采用混沌工程提高系统稳定性。

为什么是混沌工程?

友嘉银行风波

最近,友嘉银行遭遇了一场大风波,银行信息系统发生了大规模宕机。不仅导致了网点断网,柜面无法为客户办理业务,同时用户在使用该银行APP转账时,APP无法响应,业务也办不了。

客户们很恐慌,钱丢没丢呀?

一时之间,舆论在社交平台上铺天盖地,迅速发酵,银行的声誉急转直下,很快引起了监管机构的注意。这次事件导致了经济损失,科技高管也受到了监管机构的处分。

事件发生后,领导职务发生调整,新上任的领导,痛定思痛,决定采用混沌工程来提升稳定性。

那混沌工程为友嘉银行带来了哪些好处呢?

1、强化系统抵御风险的能力

在平台丰富的混沌工程实验场景中,通过故障注入手段,对系统发起攻击并分析所带来的影响,实现风险识别。

2、强化监控的及时性、全面性

实验中发生的故障都可以很好的暴露监控告警的盲点,促进监控告警体系的完善。

3、提升应急处置的效率

混沌工程应急演练,能够验证应急预案的有效性,持续的混沌工程实验锻炼团队抵御故障的信心和熟练度,降低平均故障处理时间。

友嘉银行通过200个故障场景持续进行混沌工程实验,660多个测试用例,排除38项潜在技术风险,应急时间也从30分钟缩短到10分钟。

从那以后,友嘉银行系统稳定性显著提升,再也没有发生故障事件,新上任的领导也因此受到嘉奖。

公开资料中显示,国内中小银行业务每中断1小时,平均损失将高达1000万元以上。

而且除了经济的损失,还将伴随着组织机构声誉的损失、不良的社会舆情以及触发监管处罚。混沌工程价值毋庸置疑。

在这充满不确定性的“云”时代,如何帮助企业系统完成更多“确定性”工作?

混沌工程探索之路,将给我们带来更多确定性答案。

3af25055923af59622f55765126065e2_v2-c8129da9c6df142c5ed8b3428271c8df_720w.webp


同创永益
15 声望3 粉丝

同创永益,面向未来的组织韧性服务提供商