变更是SRE或运维工程师日常工作中最频繁的操作,然而70%以上的事故都来源于变更操作。所以必须要对变更保持一份敬畏心。
变更可达性
首先我们要保证在变更过程中运维管理工具和手段的可达性。必须保证能够接触到业务系统相关的IT资源。
例如我们要保证办公网的可达性,有登录网络的权限,或者在公司外时,要确保有热点设备,能够移动上网,同时配置好VPN软件。否则因为网络问题无法登录到服务器就尴尬了。
还要确保堡垒机,跳板机的权限正常,服务器配置了带外管理网络,看门狗。数据中心有值班人员。一旦出现服务器死机或网络异常,能够通过远程管理卡或者直接去数据中心现场登入服务器。
变更前
确定变更窗口,变更计划和流程,制定回退方案,并报给上级部门审批
变更时
变更时严格按照计划进行,不画蛇添足做计划外的行为。同时操作要通过堡垒机记录。
变更后
变更完成后监测系统状态,如果异常,则需要窗口期内执行回退方案。变更结束后需要现场或远程值守,确保7*24 on-call
注意事项
- 禁止执行没有审批的变更(审批层级根据变更影响确定)
- 禁止没有公开通知的变更
- 禁止在无法验证变更结果的时间段内做变更
- 禁止在变更窗口时间外做变更。
- 禁止没有预案的变更
- 变更时相关人员必须在现场或远程值守
- 变更后要有人员留守,处理突发情况,确保联系通畅
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。