Cloudflare R2 Gateway 服务中断事件总结

事件概述

2025年2月5日，Cloudflare 因处理钓鱼报告时的人为错误和管理工具中验证机制不足，导致其 R2 Gateway 服务发生中断。这一事件是由于员工在处理钓鱼 URL 的常规修复过程中，误将 R2 服务下线，进而导致 Cloudflare 多项服务中断或受到影响，持续时间超过一小时。

根据 Cloudflare 次日发布的事件报告，事件起因是员工在尝试阻止托管在 Cloudflare R2 服务上的钓鱼网站时，错误地执行了高级产品禁用操作，导致 R2 Gateway 服务被关闭。该服务负责处理 R2 API 的所有操作，包括上传、下载和元数据操作。

R2 服务：所有涉及 R2 存储桶和对象的操作均受到影响，内部 Prometheus 指标显示 R2 的服务水平目标（SLO）立即降至 0%。
其他服务：Stream、Images 和 Vectorize 等服务出现宕机或高错误率，而 Workers 和 Pages 项目的部署失败率仅为 0.002%。

Reddit 用户：许多用户赞赏 Cloudflare 的透明度和详细的事件报告。用户 JakeSteam 和 Miasodasto13 特别提到事件报告的分钟级详细分析和工程师在事件中的紧张体验。
工程师观点：Delivery Hero 的软件工程师 Amanbolat Balabekov 指出，Cloudflare 的工具在关键时刻失效，形成了恢复服务与服务自身之间的循环依赖。

Cloudflare 提出了多项改进措施，以防止类似事件再次发生：

此次事件凸显了人为错误和工具验证机制不足对关键服务的影响。尽管未造成数据丢失或损坏，但对多项服务产生了连锁反应。Cloudflare 通过透明的事件报告和明确的改进措施，将此次事件转化为学习和改进的机会。