Claude 3 在 Aider 的代码编辑基准测试中击败了 GPT-4

发布于 2025-07-27

主要观点：Anthropic 发布新的 Claude 3 模型，在编码任务上表现更好，已用 Aider 的代码编辑基准套件进行基准测试。
关键信息：

2024 年 3 月 7 日发布 Claude 3 模型，新的 Claude 3 Opus 超越 OpenAI 所有模型，是与 AI 结对编程的最佳模型。
Aider 是开源命令行聊天工具，依靠代码编辑基准评估 LLM 对现有代码的修改能力。
Claude 3 Opus 在基准测试中得分最高，完成 68.4%任务，单试性能与 GPT-4 Turbo 相当，Opus 虽得分高但成本高、响应慢。Claude 3 Sonnet 性能类似 GPT-3.5 Turbo。
理想的是 LLM 以某种差异形式返回代码编辑，较弱模型如 GPT-3.5 只能返回整个源代码的更新副本，Claude 3 Opus 与搜索/替换块配合效果好，Sonnet 只能处理较小源文件。
Claude 3 Opus 和 Sonnet 比 OpenAI 模型慢且贵，Claude 3 上下文窗口是 GPT-4 Turbo 的 2 倍，Claude 模型拒绝执行一些编码任务并返回错误，Claude APIs 不稳定。
重要细节：
使用 Claude 3 Opus 与 aider 的方法：python -m pip install -U aider-chat，export ANTHROPIC_API_KEY=sk-...，aider --opus。
基准测试用 aider 完成 133 个 Exercism Python 编码练习，LLM 有两次尝试机会，第一次给初始代码和任务描述，失败则给失败测试输出再试。
较弱模型如 GPT-3.5 无法使用差异，Aider 对原始 GPT-4 用更高效的搜索/替换块，对新 GPT-4 Turbo 用统一差异。
Claude 3 APIs 不稳定，Aider 会自动指数退避重试。

阅读 167