Cloudflare 在 GCP 中断后重新构建 Workers KV,实现了 40 倍的性能提升

主要观点:Cloudflare 近期重新设计了 Workers KV,采用混合存储架构,根据大小特征在分布式数据库和对象存储间自动路由对象,同时运行双存储后端,改善了全球键值存储的 p99 读延迟,从 200ms 降至 5ms 以下,处理数百亿键值对。这是为应对 2025 年 6 月 12 日 Google Cloud Platform 服务中断导致的 Workers KV 故障而进行的,之前曾从双后端设置改为仅使用 GCP 以降低运营复杂性。新系统通过基于大小的路由将 Cloudflare 自身的分布式数据库与 R2 对象存储结合,工程师解释了对于小对象数据库存储更高效且成本效益高,路由决策通过 KV Storage Proxy 透明进行。在向内部客户推出时发现意外降低了 read-your-own-write 一致性,通过开发测试框架解决,架构变化带来显著性能提升和冗余增加。
关键信息

  • 重新设计的 Workers KV 架构及改进效果(p99 读延迟降低等)。
  • 因 GCP 服务中断而进行的重新架构。
  • 新系统的存储结合方式及各部分作用。
  • 解决 read-your-own-write 一致性问题的方法。
  • Workers KV 的基本信息及应用场景。
    重要细节
  • 6 月 12 日 GCP 全球服务中断影响 Workers KV。
  • 小对象存于分布式数据库,大对象自动路由至 R2。
  • KV Storage Proxy 负责路由决策等。
  • 开发测试框架以测量和修复 RYOW 违规。
  • 新后端在欧洲的性能提升更明显等。
阅读 22
0 条评论