为了确保系统故障应对能力和在异常情况下的稳定性,某A银行此前携手同创永益开展稳定性建设项目,通过同创永益混沌工程平台主动向系统注入软件或者硬件异常,制造故障场景并根据系统的行为确定优化策略,累计对基础设施和应用系统实施了超过1000+次混沌实验。通过这些实验共发现了84个潜在风险点,结合风险点优化,显著提升了容错能力和系统稳定性;通过提前识别未知的隐患并进行修复,保障系统更好抵御生产环境中的失控条件,提升了抵御生产故障的信心。
A银行稳定性实验流程
1为客户制定短期与长期目标
短期,通过混沌工程实验,检验应用系统与基础设施的稳定性性,支撑其顺利上线;
中期,提升运维管理能力,满足1-5-10稳定性指标要求;
未来,将混沌测试从试验阶段推广到规模化实施,形成体系化的测试流程,提高整个组织的故障应对能力和系统的整体稳定性。
2稳定性实验方法论建设&实验场景设计
同创混沌教练和专家,以及行方专家指导下,形成了一套A银行的基于混沌工程稳定性测试方法论,0XY*Z+专家经验方法论(0为分层模型,X为N层扰动因子识别,Y为本体关联故障识别,Z为N层爆炸半径识别)。基于方法论形成了全套稳定性测试的体检套餐。
3稳定性实验环境部署
部署架构:生产同构环境
资源清单:资源高可用最小量
压测流量:压测流量经过测试的服务
监控、可观测:稳定TPS至少10以上,便于观测
以生产准入环境要求搭建更新(包括应用版本、配置与生产保持一致)
与系统关联应用全量选择,确保链路一致性(若无法满足,加应用挡板)
4开展实验
基于方法论形成的体检套餐,通过极简的配置,对已上线或即将上线的业务进行快速体检,验证系统和业务的稳定性,快速提升业务的数字韧性,保障连续性满足业务需求。
5稳定性分析
实验包含第一轮、第二轮、以及增补场景验证,以及举一反三的质量改善活动,直到满足稳定性实验的准出条件,并形成最终的稳定性分析报告。
A银行红蓝对抗流程
为了满足目标,提升运维管理能力;可从混沌平台对业务系统进行故障注入并触发应急实验,联动应急平台,进行应急流程处理后清除故障,恢复业务。最后根据演练当时的记录内容,整理演练报告,并对本次演练进行评分。
1红蓝对抗流程规范建设
为了满足目标二,提升运维管理能力,满足1-5-10稳定性指标要求,设计了红蓝对抗方法论。
2红蓝对抗环境准备
筛选红蓝对抗场景,基于场景进行沙盘演练,为演练做准备;
红蓝演练环境以及演练组织确认;
打流调试,确认服务的全链路满足演练要求;
演练前的宣贯工作,确保演练的正常进行;
3红蓝对抗实施
根据红蓝对抗方法论,基于准生产环境,开展了首轮红蓝对抗,本次演练共计覆盖了11个预设场景,其中包括了4个网络故障场景和7个数据库故障场景,整体的演练效果均达到了1-5-10的稳定性恢复指标要求。
为了进一步加强行方的红蓝对抗工作,将红蓝对抗作为常态化的演练,行方选取了XX银行系统&XX整合系统再次进行演练。在PP环境进行了4次演练,发现此环境下监控发现存在问题,提升空间比较大。
A银行混沌工程项目总结
技术栈通过混沌工程实验,验证并发现了基础设施的不足之处,并通过加强监控,补充完善应急预案满足稳定性以及高可用性要求;A行应用系统通过混沌工程实验,为其顺利上线提供数据支撑,达到总体目标的要求。
通过红蓝对抗演练,发现行方的某稳定性指标的不足,并进行完善,提升其运维管理能力,达到总体目标的要求。
通过混沌工程方法论以及红蓝对抗方法论的建设指导,基于部分技术栈以及应用系统的混沌实验过程,以及多轮红蓝对抗演练,将A银行从理论到可落地的实战打下了坚实的基础,同时为后续的技术栈以及应用系统提供了标准以及规范化的测试流程,达到总体目标的要求。
混沌工程-2024年11月演练支持战绩
2024年11月,同创永益共支持多家客户圆满完成混沌演练,共涉及50+套业务系统,设计了2000+套演练场景,协助客户发现300+个稳定性风险点。有效验证了应急响应和灾难恢复能力。
同创永益在系统韧性建设领域持续创新,致力于为企业提供全方位的混沌工程实践支持。基于自研的混沌工程平台,帮助企业实现故障注入场景的统一编排、实验过程的可视化监控以及实验结果的量化评估。平台支持多维度故障场景模拟,包括基础设施层、中间件层、数据库层和应用层的故障注入能力,通过标准化的实验流程和丰富的专家场景库,可以系统性地验证业务系统各类容错机制的有效性,提升研发团队对故障的感知和处理能力,帮助团队量化评估系统韧性并持续改进,助力构建更具韧性的业务系统。
同创永益简介
北京同创永益科技发展有限公司成立于2009年,是国家高新技术企业、工信部专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业用户数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。