Anthropic 揭示了克劳德性能问题背后的三个基础设施漏洞

Anthropic 最近发布了一份事后分析报告,揭示在最近几周,三个不同的基础设施错误间歇性地降低了其 Claude 模型的输出质量。公司称已解决这些问题并正在修改内部流程以防止类似中断,但社区强调了在三个硬件平台上运行服务的挑战。

2025 年 8 月和 9 月初,Anthropic 的 Claude AI 用户开始报告输出质量下降或不一致。最初看似正常的性能变化实际上是影响 Claude 输出质量的三个不同基础设施错误。这些问题都不是由高负载或需求引起的,而是在底层基础设施、路由逻辑或编译管道中出现的。团队解释:“我们从未因需求、一天中的时间或服务器负载而降低模型质量。用户报告的问题仅归因于基础设施错误……每个错误在不同平台上以不同速率产生不同症状,这导致了令人困惑的报告混合,无法指向任何单一原因。”

团队描述了三个重叠的问题:8 月 31 日最严重影响的一小时内,上下文窗口路由错误影响了 16%的 Sonnet 4 请求;由于 Claude API TPU 服务器配置错误导致的输出损坏,在 8 月 25 - 28 日触发了令牌生成错误,影响了对 Opus 4.1 和 Opus 4 的请求,以及 8 月 25 日至 9 月 2 日对 Sonnet 4 的请求;最后,由于编译器中的潜在错误导致的近似 top - k XLA:TPU 错误编译,影响了对 Claude Haiku 3.5 的请求近两周。Anthropic 补充:“我们在多个硬件平台(AWS Trainium、NVIDIA GPU 和 Google TPU)上部署 Claude。每个硬件平台都有不同的特性,需要特定的优化。尽管存在这些变化,我们对模型实现有严格的等价标准。”

事件时间线/filters:no_upscale()/news/2025/10/anthropic-infrastructure-bugs/en/resources/1d707dfc2effceba608d04007bc776132a3e57838 - 3840x1800 - 1759386166051.jpg)(来源:Anthropic 博客)

Anthropic 的可靠性负责人 Todd Underwood 在 LinkedIn 上承认了这些问题:“对我们来说,可靠性方面是一个艰难的夏天。在这组问题之前,我们在 7 月和 8 月的大部分时间都有容量和可靠性问题……我对这些问题非常抱歉,我们正在努力为您提供我们所能提供的最高质量和可用性的最佳模型。”

竞争公司 OpenAI 的技术人员 Clive Chan 评论:“ML 基础设施真的很难。为参与调试和编写报告的每个人点赞。”

Anthropic 的目标是让不同的硬件平台对终端用户透明,让所有用户无论哪个平台处理他们的请求都能收到相同质量的响应,然而硬件复杂性意味着任何基础设施更改都需要在所有平台和配置上进行验证。Google DeepMind 的高级 AI 开发关系工程师 Philipp Schmid 写道:“大规模服务模型很难。在三个硬件平台(AWS Trainium、NVIDIA GPU 和 Google TPU)上服务它同时保持严格的等价性是另一个层次。这让你怀疑硬件灵活性是否真的值得对开发速度和客户体验的影响。”

Hacker News上,Mike Hearn 评论:“关于这一点最有趣的是明显缺乏单元测试。XLA 编译器错误的测试只是打印输出,更像是一个重现案例,而不是测试工具会运行并跟踪覆盖范围的单元测试。行动项目只是更积极地倾向于评估。”

展望未来,这家人工智能公司承诺引入更敏感的评估,在更多地方添加质量评估,并开发基础设施和工具,以在不牺牲用户隐私的情况下更好地调试社区提供的反馈。

阅读 17
0 条评论