主要观点:工程领导的事件响应协议中常提及严重程度等级(severity scale),其有助于确定通知的人员,且严重程度与财务影响相关,典型的 SEV 等级如 SEV-3 到 SEV-0。但在组织事件响应时,严重程度是否真的重要存疑。
关键信息:
- SEV 等级类似 Fujita 等级,后者根据龙卷风对人类建筑和植被的破坏程度分类。
- 开始响应软件事件时,往往不知问题的严重程度,证据可能稀少、模糊且脱离背景,难以准确分配严重程度,而事件响应需要的是对复杂性的判断。
- 灾害响应机构采用的基于复杂性的评分系统,如 ICS 定义了不同的事件类型,复杂性分类比基于影响的分类更有优势,更适合行动。
- 提出一个基于复杂性的软件事件系统,如 C-1 到 C-4 等级,可用于公司的事件响应政策。
重要细节: - SEV 等级具体内容:SEV-3 影响限于内部系统;SEV-2 生产中的非客户 facing 问题;SEV-1 生产中有限影响的服务降级;SEV-0 广泛的生产中断。
- Fujita 等级细节:从 F0 到 F5 对龙卷风破坏程度的分类描述。
- ICS 事件类型及复杂性:Type 5 最多 6 人,无需书面行动计划;Type 4 需要“特遣队”或“打击队”等;Type 3 指挥人员就位等;Type 2 资源需在现场数周等;Type 1 需众多设施和资源类型等。
- 基于复杂性的软件事件系统示例:C-1 单个团队少量工程师,无交接;C-2 跨团队或班次协调,可能涉及客户支持;C-3 3 个以上团队协调,可能需要面向客户的状态发布和暂停部署;C-4 跨所有工程团队边界的持续紧密协调,涉及第三方关系和高管。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。