变更是SRE或运维工程师日常工作中最频繁的操作,然而70%以上的事故都来源于变更操作。所以必须要对变更保持一份敬畏心。

变更可达性

首先我们要保证在变更过程中运维管理工具和手段的可达性。必须保证能够接触到业务系统相关的IT资源。

例如我们要保证办公网的可达性,有登录网络的权限,或者在公司外时,要确保有热点设备,能够移动上网,同时配置好VPN软件。否则因为网络问题无法登录到服务器就尴尬了。

还要确保堡垒机,跳板机的权限正常,服务器配置了带外管理网络,看门狗。数据中心有值班人员。一旦出现服务器死机或网络异常,能够通过远程管理卡或者直接去数据中心现场登入服务器。

变更前

确定变更窗口,变更计划和流程,制定回退方案,并报给上级部门审批

变更时

变更时严格按照计划进行,不画蛇添足做计划外的行为。同时操作要通过堡垒机记录。

变更后

变更完成后监测系统状态,如果异常,则需要窗口期内执行回退方案。变更结束后需要现场或远程值守,确保7*24 on-call

注意事项

  1. 禁止执行没有审批的变更(审批层级根据变更影响确定)
  2. 禁止没有公开通知的变更
  3. 禁止在无法验证变更结果的时间段内做变更
  4. 禁止在变更窗口时间外做变更。
  5. 禁止没有预案的变更
  6. 变更时相关人员必须在现场或远程值守
  7. 变更后要有人员留守,处理突发情况,确保联系通畅

千里之行
1 声望0 粉丝

SRE体系践行者