Cloudflare 27 分钟故障解析 - SegmentFault 思否

Cloudflare 部分服务中断事件总结

事件概述

Cloudflare，一家专注于网络性能和可靠性的公司，近期遭遇了部分互联网资产和服务的中断。此次中断持续了27分钟，原因是其骨干网络（The Cloudflare Backbone）中的配置错误，导致整个网络的流量下降了50%。

事件原因

Cloudflare的首席技术官John Graham-Cumming在博客中澄清，此次中断并非由任何形式的攻击或入侵引起。事件的直接原因是网络工程团队在解决网络拥塞问题时，更新了路由器的配置，但配置错误导致所有流量被发送到亚特兰大的路由器，造成该路由器负载过大。

影响范围

此次中断影响了Cloudflare网络中连接到亚特兰大的20个地点，包括圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和波尔图阿莱格里。受影响的网站包括《英雄联盟》、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico和Shopify等。

事件处理与改进措施

Graham-Cumming在事件后发布了道歉声明，并介绍了为防止类似事件再次发生而进行的全球骨干网络配置更改。Cloudflare的首席执行官Matthew Prince在推特上进一步解释，事件的根本原因是骨干网络路由器配置中的拼写错误，并表示已经采取了防护措施，确保此类错误不会再次引发问题。

公众反应与讨论

在互联网论坛上，公众对此事件反应不一。Reddit用户rotarychainsaw表示理解，认为这种错误很容易发生。然而，其他用户如hennirl则对变更审查过程提出了质疑，认为配置更改应该经过多次审查。

历史背景

此次中断事件与2019年7月2日的一次类似事件相呼应，当时Cloudflare的站点因网络CPU使用率激增而出现502错误。Jerome Fleury在推特上呼吁用户提出“尖锐”的问题，并表示此次事件让他们学到了很多教训。

进一步学习资源

对于对此类事件感兴趣的读者，可以通过InfoQ播客和Learning from Incidents博客了解更多关于事后分析、生产问题根本原因分析以及克服学习障碍的内容。