隐式优于显式

主要观点:对谷歌云最新的全球中断事件有思考,指出复杂分布式系统的典型故障及此次事件中谷歌服务授权入站 API 调用缺失处理边缘情况导致服务崩溃及全球中断,还提到报告中部分区域服务控制任务重启产生 herd 效应及谷歌工程师未应用指数退避等问题,对比了显式和隐式在系统中的优缺点,如 Kubernetes 中 pod 的默认重试策略及 Shopfiy 事件中显式处理重试的情况等。
关键信息:

  • 2025 年 6 月 12 日 PDT 约 10:45 ,区域 Spanner 表插入策略变更致全局复制触发全球中断。
  • 部分较大区域服务控制任务重启致基础架构过载,服务控制未实施适当随机指数退避。
  • 读取 Spanner 表未通过服务网格,Borg 对容器崩溃循环未应用退避。
  • 对比显式和隐式,如 Kubernetes pod 的默认重试策略与 Shopfiy 事件中显式处理重试。
    重要细节:
  • 事件报告链接
  • 服务授权入站 API 调用缺失对空配置值处理引发服务崩溃。
  • 强调谷歌工程师可能忘记应用指数退避,且此故障模式首次在生产中出现。
  • 之前关于getUsers函数各种实现的帖子及其中的改进。
  • 提到 Shopfiy 卡保管库端点返回间歇性 403 及处理方式。
阅读 9
0 条评论