Kubernetes 稳定性保障手册 -- 极简版

阿里云云原生

阅读 3 分钟

1

头图.png

作者 | 悟鹏
来源 | 阿里巴巴云原生公众号

Kubernetes 在生产环境中的采用率越来越高，复杂度越来越高，由此带来的稳定性保障的挑战越来越大。

对于基于 Kubernetes 的云产品，稳定性保障已成为基本诉求，稳定性缺陷会给产品带来巨大的损失，如用户流失、用户信心下降、产品迭代速度变慢等。

虽然基于 Kubernetes 的稳定性保障很重要，但业界缺少基于实践的标准化稳定性保障方案，导致同样的问题在同一产品或不同的产品中重复出现，最佳实践不能应用在更多相同技术栈的产品中，不同产品形成的稳定性保障最佳实践也不能互补。

为此，基于过去的开发实践以及基于 Kubernetes 的稳定性保障经验，尝试形成《Kuberentes 稳定性保障手册》，将稳定性保障最佳实践进行沉淀，使得人人对 Kubenretes 稳定性保障的理论形成全面的理解，相应的工具和服务成为基础设施，复用在类似技术栈的产品中，加速稳定性保障最佳实践的传播、迭代和应用。

本篇文章作为《Kubernetes 稳定性保障手册》第一篇文章，抽象稳定性保障中的核心内容，作为稳定性保障最简使用手册。

极简手册目标

1min 理解稳定性保障目标
3min 把握稳定性保障全局视图
一站查找稳定性保障推荐工具或服务

稳定性保障目标

满足服务或产品对稳定性的诉求
加速服务或产品的迭代

稳定性保障检查项

稳定性保障级别

实践

方法论

全局视图

实践流程：

整理运行链路图，标记链路是否是关键链路
基于运行链路图，进行可观测性配置
基于链路重要程度，进行可控性治理

为了降低实践的成本，需要把握云产品中的元素及交互关系，从基础的元素和交互方面解构复杂系统：

元素 (2 类)
- 云产品组件
- 云产品
交互 (2 类，共 3 种场景)
- 云产品内部
  - 组件自身
  - 组件与组件之间
- 云产品之间
  - 云产品与云产品之间

如下图：

随着元素数量和交互关系的增多，系统会逐步变得复杂，稳定性保障面临的挑战也会越来越大，要避免引入非必要的复杂性。

因此，需要先梳理清楚当前的运行链路图，进行链路重要性分析，并整理组件大图，判断组件的爆炸半径。在此基础上，还需要进行参与人员的 review，避免在人员的投入方面存在单点风险。

运行链路图示例：

链路重要性示例：

云产品间交互示例：

基于上述对系统复杂度、运行链路的分析，面对稳定性保障的问题域，可以有效提出、落地解决方案。

问题处理

实践流程：

长期维护角色列表、功能流程图、运行链路图
在多个分级的「告警群」中感知问题的发生和恢复
在唯一的「问题处理群」中处理问题和复盘问题

对于复杂的系统，通常会有如下的角色关系：

梳理清楚每层的角色，并使得参与同学可以方便查找目标同学，会缩短问题处理时间。

问题域

概述

推荐

后续

对于《Kubernetes 稳定性保障手册》，接下来会进行如下的章节细化，分别从方法论和工具/服务的角度进行总结，形成初版后与大家分享，进行共建：

云计算云原生容器 kubernetes 开发者

阅读 2k发布于 2021-03-01

阿里云云原生

1.1k 声望321 粉丝

« 上一篇

应云而生，幽灵的威胁 - 云原生应用交付与运维的思考

下一篇 »

Serverless 如何在阿里巴巴实现规模化落地？

引用和评论

推荐阅读

“最近我给有代码洁癖的同事墙裂安利了通义灵码”

阿里云云原生阅读 66

从开发者视角解读 Google Cloud Next 25

SegmentFault思否赞 9阅读 7k

Dev.Together 2025 开发者生态峰会演讲议题、社区百宝箱开放征集！

思否编辑部阅读 9.3k

K8s 小白入门｜从电影配乐谈起，聊聊容器编排和 K8s

小猿姐赞 1阅读 1.5k

百度 Create AI 开发者大会：李彦宏发布两大新模型、多款热门 AI 应用，帮助开发者全面拥抱 MCP

思否编辑部阅读 4.4k

SegmentFault “女性视角下的鸿蒙创新力”问答征集活动圆满收官！

思否编辑部阅读 3.4k

Light创造营 2025 评选规则

思否编辑部阅读 2.9k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。