Cloudflare 部分服务中断事件总结
事件概述
Cloudflare,一家专注于网络性能和可靠性的公司,近期遭遇了部分互联网资产和服务的中断。此次中断持续了27分钟,原因是其骨干网络(The Cloudflare Backbone)中的配置错误,导致整个网络的流量下降了50%。
事件原因
Cloudflare的首席技术官John Graham-Cumming在博客中澄清,此次中断并非由任何形式的攻击或入侵引起。事件的直接原因是网络工程团队在解决网络拥塞问题时,更新了路由器的配置,但配置错误导致所有流量被发送到亚特兰大的路由器,造成该路由器负载过大。
影响范围
此次中断影响了Cloudflare网络中连接到亚特兰大的20个地点,包括圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和波尔图阿莱格里。受影响的网站包括《英雄联盟》、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico和Shopify等。
事件处理与改进措施
Graham-Cumming在事件后发布了道歉声明,并介绍了为防止类似事件再次发生而进行的全球骨干网络配置更改。Cloudflare的首席执行官Matthew Prince在推特上进一步解释,事件的根本原因是骨干网络路由器配置中的拼写错误,并表示已经采取了防护措施,确保此类错误不会再次引发问题。
公众反应与讨论
在互联网论坛上,公众对此事件反应不一。Reddit用户rotarychainsaw表示理解,认为这种错误很容易发生。然而,其他用户如hennirl则对变更审查过程提出了质疑,认为配置更改应该经过多次审查。
历史背景
此次中断事件与2019年7月2日的一次类似事件相呼应,当时Cloudflare的站点因网络CPU使用率激增而出现502错误。Jerome Fleury在推特上呼吁用户提出“尖锐”的问题,并表示此次事件让他们学到了很多教训。
进一步学习资源
对于对此类事件感兴趣的读者,可以通过InfoQ播客和Learning from Incidents博客了解更多关于事后分析、生产问题根本原因分析以及克服学习障碍的内容。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。