on-call的意思是随时待命,on-call轮值工作是SRE, 运维,研发团队的重要职责,它的目标是保证服务的可靠性和可用性。on-call通常处理的都是紧急事故,一般非紧急的工作一线的研发和运维即可处理。
在我们安排团队内部的on-call轮值工作时,需要注意以下几点:
1.数量上保持合理的平衡
如果公司要求做到7*24,那么尽量做到每人每月轮值一周。同时要为主on-call工程师配置一个副手,确保主on-call联系不上时有备份,或者客户问题溢出时,副手可以分担压力
2.工作压力保持平衡
处理事故时不仅要处理现有问题,处理完毕还需要写事故报告和总结,非常耗时耗力,单日的生产环境报警故障处理总数尽量不超过3-4个,否则会造成运维压力过大,同时长时期执行夜间工作对人的身体不利,尽量避免夜间值班
3.福利措施
on-call值班把工作带入了生活,时刻都有潜在的工作压力,需要为on-call工程师提供额外的补贴,避免工程师对工作厌倦
4.安全感
单独处理未知问题,面对愤怒的客户往往需要承担巨大的心理压力,在处理紧急事故时,需要为on-call工程师提供资源,避免遇到问题手忙脚乱,最紧要的有如下几个:
- 清晰的问题升级路线
一旦超出on-call工程师的能力范围,及时将问题升级 - 清晰定义的紧急事故处理步骤
有了参照样板,on-call工程师处理起来会更顺畅 - 包容,合作的文化氛围
在工作中只针对具体工作和问题,能够控制情绪,不指责,甩锅他人
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。