主要观点:Podia 从无事件响应流程发展到有轮班和工具支持的更结构化系统,介绍了引入值班制度的过程及经验。
关键信息:
- 早期无监控,后添加 Rollbar 和 UptimeRobot,日常处理通知效率低,导致内部压力大。
- 设计值班系统遵循 5 个原则,如最小化对个人生活影响等。
- 决定值班轮班结构为 24 小时制,每周轮班太频繁,24 小时制更易安排。
- 确定仅 3 种情况值得唤醒值班人员,如应用下线等,期望每月 1 - 2 次事故。
- 期望值班人员 10 - 15 分钟内响应,允许值班时喝酒但不能操作生产系统。
- 强调团队合作,所有开发者共同负责应用,出现事故团队一起处理,及时在 Slack 通知。
- 随着时间推移,团队规模变化,值班制度有所调整,工具选择也改变,现用 Cronitor 等工具。
重要细节: - 作者早期周六陪家人时因习惯查看 Slack 发现错误却无法解决。
- 值班时用一根绳子系在脚趾上的方式想象能唤醒自己的事件。
- 团队分布在不同时区,通过 Slack 及时通知和协作处理事故。
- 引入领导团队可参与处理大型事故,工具选择可根据需求调整等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。