DiRMA:衡量您的组织如何管理混乱

在当今复杂的技术环境中,传统错误预算已不足以应对云中断、AI 偏差、数据丢失和法规遵从等现代挑战。谷歌、奈飞、Slack 和 CapitalOne 等公司采用了 CE 和 DiRT 等结构化方法来构建更具弹性的系统。实施这些方法虽能提高系统可靠性,但也面临文化抵制、缺乏所有权和难以衡量影响等挑战。

为解决这些挑战,组织开发了成熟度模型,评估可靠性计划的有效性并指导改进。但现有的 CE 成熟度模型未考虑 DiRT 的独特特征。本文介绍了 DiRMA 框架,旨在跨人员、流程和工具三个关键维度测量和提高 DiRT 计划的成熟度,帮助团队克服常见障碍并构建更具弹性的灾难恢复策略。

DiRT 概述:DiRT 是一种通过故意触发可控故障来对系统进行压力测试的结构化方法,能帮助组织主动识别弱点并改进恢复策略,测试分为不同层级,涵盖多种实际测试场景,其生命周期包括规划、执行、评估和恢复等阶段。

混沌工程成熟度模型:已有两种用于指导组织通过受控实验构建更具弹性系统的成熟度模型,分别是 Netflix 的 CE 成熟度评估模型(基于复杂度和采用度两个维度)和 Harness 的 CE 成熟度模型(分为四个级别,从基础实验到完全集成生产环境)。

灾难恢复测试成熟度评估(DiRMA):DiRMA 受 DiRT 启发,旨在评估和提高组织在 DiRT 方面的准备情况,通过员工调查、小组讨论和领导观察确定 DiRT 的采用水平,映射到人员、流程和工具三个维度,定义了从入门到高级的不同成熟度级别,虽基于成功模型且在学术场景中使用,但仍需在更多场景中实施和验证。

结论:传统错误预算已过时,公司采用 CE 和 DiRT 等方法,DiRMA 框架可帮助组织实施 DiRT、识别改进领域并构建更强大的灾难恢复计划,通过评估 DiRT 采用情况可提高组织在不断变化的技术环境中的弹性和适应性。

阅读 7
0 条评论