阿里云香港节点全面故障给我们的启示

2022年12月18日上午，阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常，影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用，阿里云工程师已在紧急处理中。”

在这个寒冷的冬天，一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可用呢。说好的N个9呢？SLA 就是个笑话，服务该挂不还是挂了。虽然经过十几个小时，阿里云香港节点服务恢复了，数据也恢复了，终于可以让各位老板松了口气，估计很多运维的小伙伴已经开始迁移服务或者开始做备份了。

但是并不是每个公司都这么幸运，不知道还有谁记得「前沿数控」这个公司，当初因为所有数据都在云硬盘上，结果因为云硬盘故障，导致公司的所有数据全部丢失，一夜回到解放前，也不知道官司现在结果如何了。

经过阿里云这次大故障，估计很多老板都会考虑可靠性的问题了，尤其是服务和数据的安全。再心大的老板估计也得让人做个服务和数据的冷备份，稍微懂点的得用混合云搞搞，估计再也没人嘲笑那些自建小容器云、自建机房的公司了。

公有云故障和公司内部服务处理方式区别很大

之前一个老板问我说公司内部要不要搞一个StatusPage？我说可以搞，但是优先级不高，等以后有精力有时间了可以搞。公司内部的很多服务会不会出问题，哪里出问题，怎么解，其实很多时候都是有固定答案的，你一回想就能知道哪里可能有问题。很多时候我们并不是缺少一个和用户沟通的渠道，而是我们故障预案都没有，也从来没有演练过。出故障是肯定的，只是不确定什么时候发生而已。先把重要的事，不做就得死的事做了、做好了再考虑其它的。

StatusPage，一句话描述就是：当你的在线业务宕机时，StatusPage 允许你和你的客户进行沟通，告知他们当前服务的状态和问题处理进展。业务正常服务状态下，客户也可以查看当前服务状态是否正常。同时，客户也可以查看这一业务所有历史上的问题发生和处理记录。

公司内部我们有很多的渠道与用户沟通。在公司内部，一般都有系统的用户群，当服务挂了，各种监控告警就会发出来，系统相关人都会注意到，第一时间在群内周知。这个和公有云的服务还是有很大不同的。

再好的预案没演练过也只是预案

就像平时，很多公司都会声称我们的系统有备份能还原。实际上很多时候也只是一个备份、还原「预案」。结果最后真的需要还原的时候发现，要么备份没成功，要么备份成功了但是数据陈旧，要么找到数据了但是无法还原。。。。总之结论就是没法还原。做这行久了，八卦也就有了，我身边血淋淋的案例太多了，此处我想 at 下我全大哥 :)

线上服务故障演练

我们真的需要对线上服务进行故障演练。针对各种故障场景下服务的容错能力、配置合理性、服务健壮性、监控告警实效性、定位与解决问题应急能力等进行演练。发现线上服务的薄弱环节，提升服务的容错性和可恢复性。

别有侥幸心理，踏实干事，一步一个脚印才能让掉坑里的次数少点。

阿里云香港节点全面故障给我们的启示

公有云故障和公司内部服务处理方式区别很大

再好的预案没演练过也只是预案

线上服务故障演练

相关阅读

雪柳岸

引用和评论

DevOps｜产研运协作工具链上的皇冠-项目管理工具

Gitee MCP Server：AI 助力企业研发效率腾飞

DevOps 平台选型对比：功能与价值剖析

代码托管平台深度解析：Gitee如何赋能本土开发团队

2025年最佳DevOps工具推荐：Gitee为何成为新手首选

GitHub 热门开源运维工具 Websoft9：如何实现服务器管理效率翻倍？

Python小项目：利用tkinter开发测手速小游戏