作为SRE或运维工程师,我们在入职新公司或业务调整时,常常需要接手一些公司的现有业务,为了防止无从下手,可以参考下面的步骤:
1.了解业务
- 了解业务
了解网站/app架构,用到的技术原理和流程、组件,了解业务的作用,解决了什么问题,当前的可靠性如何等 - 了解人员
了解和业务系统相关的所有人,包括市场,产品,开发,测试,运维,售后等,建立联系矩阵和良好的沟通印象。 - 了解背景
了解该业务的商业价值,重要程度,在leader眼中的重视程度,以及期望的SLO,能够提供的软硬件资源和人力保障资源等
2.熟悉架构
通过阅读产品文档,参加业务串讲,业务评审等方式快速熟悉业务架构,系统架构,部署方式,运维现状,与当前的运维工程师或SRE做好交接,获知当前的工作重点方向
3.掌握运维资源
熟悉公司当前的IT基础设施,获取云管平台,CMDB,代码仓库,堡垒机,网络接入,工具软件的使用权限,熟悉当前的监控体系。确保自己有变更操作权限
4.获取当前的故障,问题,痛点
参看最近的故障报告,运维工单处理记录,了解业务系统的生产现状。与开发测试及运维等人员交流,维护运研关系。定期召开生产会议,了解当前面临的问题和痛点、瓶颈。提炼改善目标,并针对目标列出可行措施
5.推进改善措施
在故障后要组织复盘会议,根据达成的共识,推进改进措施。梳理业务架构与监控中的薄弱环及运维流程缺失的地方,推进运维规范化,标准化。在做运维项目时要注意工作的优先级,优先处理急迫的,用户感知比较强的项目,切勿贪多求全。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。