幕后：红熊猫云对 GCP 中断的响应

发布于 2025-08-03

主要观点：2025 年 6 月 12 日谷歌云平台（GCP）因 API 管理系统的自动配额更新出现全球故障，而 Redpanda Cloud 客户未受影响，本文介绍了事件的时间线、原因及 Redpanda Cloud 应对的优势等。
关键信息：

2025 年 6 月 12 日 GCP 全球故障，Redpanda Cloud 集群稳定得益于其设计和架构。
事件原因是现代计算机系统的非线性特性及蝴蝶效应，GCP 自动配额更新引发。
时间线包括通知、评估影响、监控状态、接收通知、确定原因、缓解、监测等阶段。
Redpanda Cloud 的优势包括基于单元的架构减少故障影响、专为提供的 SLA 设计、未大量丢失节点等。
行业需重新思考心态，重视系统思维和控制理论。
重要细节：
18:41:00 UTC 技术账户经理通知故障，18:42:00 UTC 开始评估影响，18:43:00 UTC 监控降级，19:08:00 UTC 创建低严重度事件，19:23:00 UTC 管理云市场的供应商出现问题，19:41:00 UTC 谷歌确定触发原因并应用缓解措施，20:26:00 UTC 开始收到延迟警报，20:56:00 UTC 主动联系高存储错误率客户，21:38:00 UTC 认为事件缓解。
Redpanda Cloud 基于单元的架构使服务共置，降低故障影响，且将其作为产品原则。
为提供 99.99% SLA 进行大量投资和努力，多 AZ 集群设计支持高可用性。
部分客户以 GCP 的 Pub/Sub 为数据源，Redpanda 运营状态不那么关键。
仅一个集群在事件中受影响，幸运未大量丢失节点，且及时启动替换节点。
去年迁移到自管理观测堆栈，避免因第三方服务故障导致严重后果。

阅读 71