2025 年 2 月 6 日 8 点 12 分,R2 网关服务在响应网络钓鱼报告时被意外禁用,8 点 14 分开始出现影响,R2 服务指标开始显示服务降级,8 点 17 分因服务不再响应健康检查而发出关键警报,8 点 18 分 R2 值班人员开始查看操作仪表板和服务日志以了解可用性影响,8 点 23 分销售工程向 R2 工程团队报告客户从所有 R2 API 中遇到 HTTP 500 错误急剧增加,8 点 25 分宣布内部事件,8 点 33 分 R2 值班人员无法确定根本原因并升级寻求协助,8 点 42 分确定根本原因是 R2 团队审查服务部署历史和配置时发现了允许此情况影响生产服务的操作和验证差距,8 点 46 分值班人员尝试使用内部管理工具重新启用 R2 网关服务但因依赖 R2 而不可用,8 点 49 分升级至具有更低级别系统访问权限且可重新启用 R2 网关服务的运营团队,8 点 57 分运营团队开始重新启用 R2 网关服务,9 点 09 分 R2 团队触发 R2 网关服务重新部署,9 点 10 分 R2 开始恢复,9 点 13 分影响结束,R2 可用性恢复至服务级别目标,9 点 36 分持久对象错误率恢复,10 点 29 分事件在监测错误率后关闭。
此次事件导致包括 R2 及其依赖服务(如 Stream、Images、Cache Reserve、Log Delivery、Durable Objects、Cache Purge、Vectorize、Key Transparency Auditor、Workers & Pages 等)在内的多项 Cloudflare 服务不可用 59 分钟,所有对 R2 的操作失败,部分依赖服务观察到错误率和失败模式增加,如 Log Delivery 数据丢失等,但未导致 R2 上存储的数据丢失或损坏。事件是由于人为错误和管理工具中的验证安全措施不足,在对 R2 上托管的网络钓鱼站点进行常规滥用修复时误操作导致,目前已采取多项措施解决验证差距并实施更强的系统级控制,以防止类似事件再次发生,并承诺改进系统和工作流程的控制。同时介绍了 Cloudflare 的其他服务及相关信息。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。