主要数据中心电力故障(再次):Cloudflare 代码橙色测试

主要观点:2023 年 11 月和 2024 年 3 月,俄勒冈州波特兰市同一数据中心两次断电,Cloudflare 团队采取措施确保客户不受影响,介绍了 Code Orange 流程及各项改进措施,包括控制平面服务恢复速度提升、Logpush 基础设施更新等,目前仍在努力完成 Analytics 平台的弹性计划,未来将继续与 Flexential 合作。
关键信息:

  • 2023 年 11 月 2 日,波特兰数据中心长时间断电,原因是电网维护引发的一系列故障,包括接地故障等,导致设施无法及时恢复上线。
  • 2024 年 3 月 26 日,同一数据中心再次断电,PDX01 失去电力,系统自动切换到冗余设施,控制平面和 API 很快恢复正常,数据平面未受影响,Analytics 平台受影响但正在恢复中。
  • 引入 Code Orange 流程,授权技术运营高级副总裁指挥团队处理紧急情况,团队为应对后续可能的灾难做了大量准备工作。
  • 控制平面服务在断电后恢复速度大幅提升,得益于将配置数据库迁移到高可用拓扑结构等措施,Logpush 基础设施也得到更新,Stream 和 Zero Trust 产品的改进使其在断电时影响很小。
  • 3 月 26 日断电原因是四个开关板同时故障,导致断路器协调设置错误,Flexential 工程师调整后恢复供电。
  • 未来将继续完成 Analytics 平台的弹性计划,收集数据确保手动干预减少,与 Flexential 合作提升对关键数据中心设施的了解。
    重要细节:
  • 2023 年 11 月断电时,多个服务有至少 6 小时的控制平面停机时间,部分功能数天受损,此次断电所有服务很快恢复正常。
  • 过去几个月团队为确保客户能在类似中断时配置和操作服务做了大量工作,如准备和更新系统等。
  • 控制平面由数百个内部服务组成,期望在波特兰三个关键数据中心之一丢失时其他两个设施能正常运行。
  • 为消除 Analytics 平台对 PDX01 数据中心的依赖,团队一直在努力,预计不久将完成。
  • 完成冷启动数据中心的时间从 2023 年 11 月的约 72 小时缩短到 2024 年 3 月的约 10 小时。
  • Cloudflare 的连接云提供多种服务,可通过 1.1.1.1 免费应用加速和保障网络安全,了解更多可访问相关网站。
阅读 11
0 条评论