用于正常运行时间的工程：可观察性、测试以及通往坚如磐石的后端服务之路 - SegmentFault 思否

用于正常运行时间的工程：可观察性、测试以及通往坚如磐石的后端服务之路

发布于 2025-09-04

主要观点：

单个移动点击可触发后台多个事件，用户只关注最终结果，而可靠性是后端工程师的共同责任，需嵌入日常决策。
可靠性涵盖多个方面，本文聚焦可观测性、测试和事件响应三个关键支柱。
要捕捉用户体验，关注端到端延迟、吞吐量等用户面指标，同时结合系统级可观测性用于调试。
系统警报应针对关键依赖，区分领先和滞后指标，且要提供足够上下文和早期预警。
保持警报卫生，定期审查、衡量可操作性、调整阈值和丰富警报内容，以减少值班负担。
有针对性地记录和追踪有用信息，避免日志过多，利用分布式追踪等提高排查效率。
构建测试文化，从单元测试到混沌测试，全方位测试以提前发现问题。
正确处理事件，从事实出发，关注系统设计差距，分享经验教训，避免英雄文化。

关键信息：

可观测性指标如端到端延迟、吞吐量等对衡量可靠性重要。
系统警报要根据依赖设计，区分领先滞后指标且早期预警。
保持警报卫生的实践包括定期审查等。
有针对性地记录和追踪信息，利用分布式追踪。
多种测试类型如单元、集成等的作用和工具。
良好事件响应包括从事实出发等步骤。

重要细节：

不同用户（如内部团队、外部用户）的体验都需关注。
领先指标能提前预警，滞后指标在问题出现后才体现。
定期审查警报可减少噪声和浪费时间。
不同日志级别（DEBUG、INFO 等）的使用场景。
各种测试工具的特点和使用技巧。
事件响应要避免英雄文化，注重分享学习。

Engineering for Uptime: Observability, Testing, and the Road to Rock-Solid Back-End Services

https://dzone.com/articles/observability-testing-backend-reliability

阅读 104

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。