关于 GCP 公共事件报告的快速了解

主要观点:6 月 12 日 Google Cloud Platform(GCP)多个服务在所有区域出现事故,已发布事故报告,作者阅读后提出思考和疑问。
关键信息

  • 事故发生于部署两周后,系统名为 Service Control,代码按区域部署但有“地雷”风险,即问题代码路径在部署中未被触发。
  • 分析认为此次事故因缺少适当错误处理和功能标志保护,且 Service Control 未实现适当随机指数退避。
  • 有“红色按钮”可关闭特定策略服务路径,但此功能与功能标志不同。
  • 5 月 29 日添加新功能进行额外配额策略检查,6 月 12 日有政策变更,涉及全局数据复制及过载基础设施等问题。
  • 存在经典的“饱和”现象,系统恢复模式与正常模式不同难以测试。
  • 作者提出长期猜想,此事故是否符合该猜想需看配额管理系统目的。
  • 报告列出七个纠正措施,需考虑其涉及的权衡和可能带来的新问题。
    重要细节
  • 不清楚 Google 内部调查进展及后续是否会发布更多报告。
  • 对于功能标志和“红色按钮”在 Google 内部的具体工作方式不了解。
  • 对新增配额策略检查的相关细节如目的、客户面向等有诸多疑问。
  • 对配额管理数据全局变化的业务需求及权衡缺乏了解。
阅读 8
0 条评论