幕后:红熊猫云对 GCP 中断的响应

主要观点:2025 年 6 月 12 日谷歌云平台(GCP)因 API 管理系统的自动配额更新出现全球故障,而 Redpanda Cloud 客户未受影响,本文介绍了事件的时间线、原因及 Redpanda Cloud 应对的优势等。
关键信息

  • 2025 年 6 月 12 日 GCP 全球故障,Redpanda Cloud 集群稳定得益于其设计和架构。
  • 事件原因是现代计算机系统的非线性特性及蝴蝶效应,GCP 自动配额更新引发。
  • 时间线包括通知、评估影响、监控状态、接收通知、确定原因、缓解、监测等阶段。
  • Redpanda Cloud 的优势包括基于单元的架构减少故障影响、专为提供的 SLA 设计、未大量丢失节点等。
  • 行业需重新思考心态,重视系统思维和控制理论。
    重要细节
  • 18:41:00 UTC 技术账户经理通知故障,18:42:00 UTC 开始评估影响,18:43:00 UTC 监控降级,19:08:00 UTC 创建低严重度事件,19:23:00 UTC 管理云市场的供应商出现问题,19:41:00 UTC 谷歌确定触发原因并应用缓解措施,20:26:00 UTC 开始收到延迟警报,20:56:00 UTC 主动联系高存储错误率客户,21:38:00 UTC 认为事件缓解。
  • Redpanda Cloud 基于单元的架构使服务共置,降低故障影响,且将其作为产品原则。
  • 为提供 99.99% SLA 进行大量投资和努力,多 AZ 集群设计支持高可用性。
  • 部分客户以 GCP 的 Pub/Sub 为数据源,Redpanda 运营状态不那么关键。
  • 仅一个集群在事件中受影响,幸运未大量丢失节点,且及时启动替换节点。
  • 去年迁移到自管理观测堆栈,避免因第三方服务故障导致严重后果。
阅读 18
0 条评论