Anthropic 的 Claude Opus 4.1 改进了重构和安全性，在 SWE-bench 验证中得分为 74.5%

Anthropic 推出了Claude Opus 4.1，此更新加强了多文件项目中的编码可靠性并改善了长交互时的推理能力。该模型还将其SWE-bench Verified分数从 72.5%提高到 74.5%。

图 1：Opus 4.1 与 Opus 4 的 SWE-bench Verified 准确性比较

基于 Opus 4，新版本加强了 Claude 作为编码助手的能力，在开发者需要可靠代码重构的多文件环境中表现更优，这是 AI 助手常遇困难的领域。Anthropic 还强调了模型在遵循推理链和在较长交互中跟踪状态方面的改进，这对类似代理的工作流至关重要。Anthropic 认为这些变化是朝着实用、企业级就绪的 AI 助手迈出的渐进但有意义的步骤。
SWE-bench Verified被广泛视为编码助手的基准，评估模型在开源项目中解决真实世界 GitHub 问题的能力。在该指标上的改进被视为与合成基准相比更能表明实际编码效用。
根据发布说明，GitHub 在复杂重构任务上观察到更强的性能，乐天集团指出 Claude 能够在大型代码库中准确指出修正，而不会引入不必要的更改。Windsurf 在其内部初级开发人员基准上比 Opus 4 提高了一个标准差，他们将这一进步与从 Sonnet 3.7 到 Sonnet 4 的早期升级进行了比较。
安全仍是另一个重点。Claude Opus 4.1 将其“无害响应率”从 Opus 4 的 97.27%提高到 98.76%，反映出在拒绝违反政策的请求时更可靠。该公司还报告称，在与高风险滥用场景（如涉及武器或药物合成的场景）的合作减少了 25%。这些保障措施解决了企业对合规性和品牌风险的日益关注。
无害响应率是衡量模型可靠拒绝生成不安全或被禁止输出的核心指标，这对于企业部署尤其重要，因为合规性和品牌风险是关键考虑因素。
Claude Opus 4.1 立即对付费 Claude 用户可用，在Claude Code中用于基于终端的工作流，并可通过其 API、Amazon Bedrock和Google Cloud's Vertex AI访问。价格与 Opus 4 保持一致。