Cloudflare R2 Gateway 服务中断事件总结
事件概述
2025年2月5日,Cloudflare 因处理钓鱼报告时的人为错误和管理工具中验证机制不足,导致其 R2 Gateway 服务发生中断。这一事件是由于员工在处理钓鱼 URL 的常规修复过程中,误将 R2 服务下线,进而导致 Cloudflare 多项服务中断或受到影响,持续时间超过一小时。
事件原因
根据 Cloudflare 次日发布的事件报告,事件起因是员工在尝试阻止托管在 Cloudflare R2 服务上的钓鱼网站时,错误地执行了高级产品禁用操作,导致 R2 Gateway 服务被关闭。该服务负责处理 R2 API 的所有操作,包括上传、下载和元数据操作。
影响范围
- R2 服务:所有涉及 R2 存储桶和对象的操作均受到影响,内部 Prometheus 指标显示 R2 的服务水平目标(SLO)立即降至 0%。
- 其他服务:Stream、Images 和 Vectorize 等服务出现宕机或高错误率,而 Workers 和 Pages 项目的部署失败率仅为 0.002%。
恢复过程
- 恢复障碍:由于缺乏直接控制机制来撤销产品禁用操作,且需要依赖权限较低的操作团队,恢复过程受到阻碍。
- 重新部署:R2 Gateway 服务需要重新部署以重建其边缘网络中的路由管道。
用户反馈
- Reddit 用户:许多用户赞赏 Cloudflare 的透明度和详细的事件报告。用户 JakeSteam 和 Miasodasto13 特别提到事件报告的分钟级详细分析和工程师在事件中的紧张体验。
- 工程师观点:Delivery Hero 的软件工程师 Amanbolat Balabekov 指出,Cloudflare 的工具在关键时刻失效,形成了恢复服务与服务自身之间的循环依赖。
改进措施
Cloudflare 提出了多项改进措施,以防止类似事件再次发生:
- 限制访问:限制对产品禁用操作的访问权限。
- 双重审批:要求对临时产品禁用操作进行双重审批。
- 滥用检查:扩展滥用检查机制,防止误封内部主机名,减少系统和人为操作的波及范围。
总结
此次事件凸显了人为错误和工具验证机制不足对关键服务的影响。尽管未造成数据丢失或损坏,但对多项服务产生了连锁反应。Cloudflare 通过透明的事件报告和明确的改进措施,将此次事件转化为学习和改进的机会。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。