AWS 美国东部-1 区域中断：事后分析与经验教训

AWS 北弗吉尼亚地区长时间宕机事件总结

事件概述

2021年12月7日，AWS（亚马逊云服务）在北弗吉尼亚地区（us-east-1）发生了长达数小时的宕机事件，影响了包括Netflix、Disney+和达美航空在内的众多客户。此次事件是北弗吉尼亚地区多年来最严重的一次，持续时间甚至超过了2017年的S3中断事件。

影响范围

受影响的AWS服务包括CloudWatch、Gateway API、Secure Token Service (STS)以及Fargate、ECS和EKS等容器服务。虽然已运行的实例和容器未受影响，但API请求的失败导致客户无法修改或启动新的实例。事件还波及了亚马逊的零售业务、Alexa语音服务和Ring安全摄像头。

事件原因

AWS在事件分析报告中指出，事件的起因是由于一个自动化扩容活动触发了内部网络中大量客户端的异常行为，导致网络设备过载，进而引发网络通信延迟和错误。这种延迟和错误进一步加剧了连接尝试和重试，最终导致网络设备持续拥堵和性能问题。

服务健康仪表板问题

在宕机期间，AWS的服务健康仪表板未能及时更新，用户也无法在数小时内创建支持案例。AWS解释称，监控系统的故障延迟了他们对事件的理解，网络拥堵也影响了服务健康仪表板工具的正常运行。AWS承诺将在明年年初发布新版本的服务健康仪表板。

社区反应与讨论

此次事件引发了关于冗余、多区域和多云策略的广泛讨论。Corey Quinn在文章中指出，AWS的us-east-1区域存在过多的服务依赖，无法实现真正的多区域故障转移策略。Jeremy Daly则认为，对于大多数系统来说，多小时的宕机虽然可能造成损失，但相比于实施和维护冗余解决方案的成本，这些损失是微不足道的。

用户建议与反馈

Zack Kanter在Twitter上发起了一个讨论，询问如果AWS今天重建，用户希望消除哪些高层次的复杂性。用户的反馈主要集中在支出限制、更好的免费层级和数据主权问题上，特别是希望在同一国家内拥有多个区域。

后续事件

12月15日，AWS在us-west-1和us-west-2两个美国区域再次出现了较短时间的连接问题。

结论

此次AWS北弗吉尼亚地区的宕机事件暴露了云服务在冗余和故障转移方面的挑战，也引发了关于多云策略和系统设计的深入讨论。虽然AWS承诺改进其监控和服务健康仪表板，但用户和专家们普遍认为，对于关键系统，实施多区域和多云策略仍然是减少未来云服务中断影响的有效手段。