隐式优于显式 - SegmentFault 思否

隐式优于显式

发布于 8 月 3 日

主要观点：对谷歌云最新的全球中断事件有思考，指出复杂分布式系统的典型故障及此次事件中谷歌服务授权入站 API 调用缺失处理边缘情况导致服务崩溃及全球中断，还提到报告中部分区域服务控制任务重启产生 herd 效应及谷歌工程师未应用指数退避等问题，对比了显式和隐式在系统中的优缺点，如 Kubernetes 中 pod 的默认重试策略及 Shopfiy 事件中显式处理重试的情况等。
关键信息：

2025 年 6 月 12 日 PDT 约 10:45 ，区域 Spanner 表插入策略变更致全局复制触发全球中断。
部分较大区域服务控制任务重启致基础架构过载，服务控制未实施适当随机指数退避。
读取 Spanner 表未通过服务网格，Borg 对容器崩溃循环未应用退避。
对比显式和隐式，如 Kubernetes pod 的默认重试策略与 Shopfiy 事件中显式处理重试。
重要细节：
事件报告链接。
服务授权入站 API 调用缺失对空配置值处理引发服务崩溃。
强调谷歌工程师可能忘记应用指数退避，且此故障模式首次在生产中出现。
之前关于getUsers函数各种实现的帖子及其中的改进。
提到 Shopfiy 卡保管库端点返回间歇性 403 及处理方式。

阅读 35