事件概述
澳大利亚养老基金管理公司UniSuper在使用Google Cloud的基础设施即服务(IaaS)合同时,由于其整个基础设施订阅被删除,发现没有任何灾难恢复(DR)措施可用。这一事件导致超过62万名UniSuper会员无法访问其养老金账户,持续了一周多的时间。
背景与问题
UniSuper此前将其基于VMware的硬件基础设施从两个数据中心迁移到Google Cloud,使用了Google Cloud VMware Engine。作为私有云合同的一部分,UniSuper的服务和数据在两个Google Cloud区域之间进行了复制。然而,由于Google内部的错误,两个区域的副本都丢失了,且没有外部灾难恢复设施。
数据恢复
尽管UniSuper有备份系统,但删除操作影响了两个地理区域,导致数据完全丢失。幸运的是,UniSuper在另一家提供商处有额外的备份,这有助于最小化数据丢失并加快恢复速度。
官方声明
Google和UniSuper在一份联合声明中表示,这是一次“孤立、独一无二的事件”,此前从未在Google Cloud的任何全球客户中发生过。Google Cloud已经确定了导致此次中断的事件,并采取措施确保此类事件不再发生。
专家观点
- Daniel Compton:认为由于缺乏详细信息的沟通,难以做出结论,但怀疑UniSuper操作错误是主要因素。希望澳大利亚养老金监管机构APRA能进一步调查并发布详细报告。
- Hacker News用户:质疑事件的真实性,认为Google让客户数据在几小时/几天内完全丢失是“基本上不可能的”,并对双方的公告表示困惑。
- Miles Ward:指出这种故障模式不会影响其他Google Cloud用户,因为该服务已经不再暴露于此类风险,且绝大多数其他Google Cloud服务从未暴露于此类风险。
监管与行业评论
- APRA要求:澳大利亚金融监管机构APRA要求公司为每个应用程序制定多云计划,例如“公司关键”应用程序需要在四周内能够迁移到次要云服务。
- Reddit用户:认为客户支持不是Google的核心能力,虽然此类事件可能发生在任何提供商身上,但在Google上更常见。强调了备份的重要性。
Google的详细说明
Google在5月24日发布了一篇博客文章,详细说明了事件的经过。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。