作为SRE或运维工程师,我们在入职新公司或业务调整时,常常需要接手一些公司的现有业务,为了防止无从下手,可以参考下面的步骤:

1.了解业务

  1. 了解业务
    了解网站/app架构,用到的技术原理和流程、组件,了解业务的作用,解决了什么问题,当前的可靠性如何等
  2. 了解人员
    了解和业务系统相关的所有人,包括市场,产品,开发,测试,运维,售后等,建立联系矩阵和良好的沟通印象。
  3. 了解背景
    了解该业务的商业价值,重要程度,在leader眼中的重视程度,以及期望的SLO,能够提供的软硬件资源和人力保障资源等

2.熟悉架构

通过阅读产品文档,参加业务串讲,业务评审等方式快速熟悉业务架构,系统架构,部署方式,运维现状,与当前的运维工程师或SRE做好交接,获知当前的工作重点方向

3.掌握运维资源

熟悉公司当前的IT基础设施,获取云管平台,CMDB,代码仓库,堡垒机,网络接入,工具软件的使用权限,熟悉当前的监控体系。确保自己有变更操作权限

4.获取当前的故障,问题,痛点

参看最近的故障报告,运维工单处理记录,了解业务系统的生产现状。与开发测试及运维等人员交流,维护运研关系。定期召开生产会议,了解当前面临的问题和痛点、瓶颈。提炼改善目标,并针对目标列出可行措施

5.推进改善措施

在故障后要组织复盘会议,根据达成的共识,推进改进措施。梳理业务架构与监控中的薄弱环及运维流程缺失的地方,推进运维规范化,标准化。在做运维项目时要注意工作的优先级,优先处理急迫的,用户感知比较强的项目,切勿贪多求全。


千里之行
1 声望2 粉丝

SRE体系践行者