手动修复钓鱼URL如何导致Cloudflare R2下线

Cloudflare R2 Gateway 服务中断事件总结

事件概述

2025年2月5日,Cloudflare 因处理钓鱼报告时的人为错误和管理工具中验证机制不足,导致其 R2 Gateway 服务发生中断。这一事件是由于员工在处理钓鱼 URL 的常规修复过程中,误将 R2 服务下线,进而导致 Cloudflare 多项服务中断或受到影响,持续时间超过一小时。

事件原因

根据 Cloudflare 次日发布的事件报告,事件起因是员工在尝试阻止托管在 Cloudflare R2 服务上的钓鱼网站时,错误地执行了高级产品禁用操作,导致 R2 Gateway 服务被关闭。该服务负责处理 R2 API 的所有操作,包括上传、下载和元数据操作。

影响范围

  • R2 服务:所有涉及 R2 存储桶和对象的操作均受到影响,内部 Prometheus 指标显示 R2 的服务水平目标(SLO)立即降至 0%。
  • 其他服务:Stream、Images 和 Vectorize 等服务出现宕机或高错误率,而 Workers 和 Pages 项目的部署失败率仅为 0.002%。

恢复过程

  • 恢复障碍:由于缺乏直接控制机制来撤销产品禁用操作,且需要依赖权限较低的操作团队,恢复过程受到阻碍。
  • 重新部署:R2 Gateway 服务需要重新部署以重建其边缘网络中的路由管道。

用户反馈

  • Reddit 用户:许多用户赞赏 Cloudflare 的透明度和详细的事件报告。用户 JakeSteamMiasodasto13 特别提到事件报告的分钟级详细分析和工程师在事件中的紧张体验。
  • 工程师观点:Delivery Hero 的软件工程师 Amanbolat Balabekov 指出,Cloudflare 的工具在关键时刻失效,形成了恢复服务与服务自身之间的循环依赖。

改进措施

Cloudflare 提出了多项改进措施,以防止类似事件再次发生:

  • 限制访问:限制对产品禁用操作的访问权限。
  • 双重审批:要求对临时产品禁用操作进行双重审批。
  • 滥用检查:扩展滥用检查机制,防止误封内部主机名,减少系统和人为操作的波及范围。

总结

此次事件凸显了人为错误和工具验证机制不足对关键服务的影响。尽管未造成数据丢失或损坏,但对多项服务产生了连锁反应。Cloudflare 通过透明的事件报告和明确的改进措施,将此次事件转化为学习和改进的机会。

阅读 8 (UV 8)
0 条评论