主要观点:对谷歌云最新的全球中断事件有思考,指出复杂分布式系统的典型故障及此次事件中谷歌服务授权入站 API 调用缺失处理边缘情况导致服务崩溃及全球中断,还提到报告中部分区域服务控制任务重启产生 herd 效应及谷歌工程师未应用指数退避等问题,对比了显式和隐式在系统中的优缺点,如 Kubernetes 中 pod 的默认重试策略及 Shopfiy 事件中显式处理重试的情况等。
关键信息:
- 2025 年 6 月 12 日 PDT 约 10:45 ,区域 Spanner 表插入策略变更致全局复制触发全球中断。
- 部分较大区域服务控制任务重启致基础架构过载,服务控制未实施适当随机指数退避。
- 读取 Spanner 表未通过服务网格,Borg 对容器崩溃循环未应用退避。
- 对比显式和隐式,如 Kubernetes pod 的默认重试策略与 Shopfiy 事件中显式处理重试。
重要细节: - 事件报告链接。
- 服务授权入站 API 调用缺失对空配置值处理引发服务崩溃。
- 强调谷歌工程师可能忘记应用指数退避,且此故障模式首次在生产中出现。
- 之前关于
getUsers
函数各种实现的帖子及其中的改进。 - 提到 Shopfiy 卡保管库端点返回间歇性 403 及处理方式。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。