从噪声到以结果为导向的可观测性:一种通过遥测提供业务价值的 SLO 优先策略

这是一篇为 DZone 的 2025 趋势报告撰写并发表的文章,主要探讨了智能可观测性:

  • 从遥测到业务价值的转变:以业务价值为导向需从客户需求出发,传统方法仅监控预定义技术指标,而 outcome-driven observability 要求将技术和业务信号统一为四个基础支柱,其中第四支柱业务数据能将原始遥测转化为可操作的情报,将技术性能与财务和客户风险相关联。
  • SLO 优先原则:以服务水平目标(SLO)为先的策略是 outcome-driven observability 的核心,建立 SLO 作为所有可靠性决策的中心指导原则,通过采用行业标准框架定义有意义的 SLI,如黄金信号和 RED 指标,与传统监控相比,在关注焦点、方法、警报、工具和团队协作等方面存在差异。
  • 用 SLO 和开放标准重塑可观测性栈:以 SLO 为基础并利用 OpenTelemetry 等开放标准,可摆脱碎片化工具链,实现统一、可扩展的平台。在工具选择和平台整合方面,改变了选择观测工具的标准,OpenTelemetry 可实现基于策略的采样,如尾采样能保留有价值的 traces。
  • 优化人工流程:即使自动化和 AI 承担更多操作任务,可观测性的有效性仍依赖人类判断,通过错误预算平衡创新和可靠性,重新定义值班和事件响应,建立可持续的值班文化。
  • 权衡代理自动化和 RUM 响应性:代理自动化是传统 RPA 的进化,RUM 是收集实际用户遥测数据的被动监测技术,两者在主动性、数据源、使用场景和关键指标等方面存在权衡。
  • 从计划到实践:通过政策、工具和文化的战略融合实现 outcome-driven observability,工程、产品和业务部门需保持一致,采用最佳实践,如从客户需求出发、建立数据管道、采用综合监控平台、使用错误预算、利用开放标准和混合自动化模型等。
  • 结论:迈向 outcome-driven observability 是一个持续改进的循环,开发者可从小处开始,利用相关资源如书籍、文档和社区来开始实践,如《The Site Reliability Workbook》《Cloud Observability in Action》《OpenTelemetry Documentation》《CNCF Observability SIG》等。
阅读 47
0 条评论