Claude 3 在 Aider 的代码编辑基准测试中击败了 GPT-4

主要观点:Anthropic 发布新的 Claude 3 模型,在编码任务上表现更好,已用 Aider 的代码编辑基准套件进行基准测试。
关键信息

  • 2024 年 3 月 7 日发布 Claude 3 模型,新的 Claude 3 Opus 超越 OpenAI 所有模型,是与 AI 结对编程的最佳模型。
  • Aider 是开源命令行聊天工具,依靠代码编辑基准评估 LLM 对现有代码的修改能力。
  • Claude 3 Opus 在基准测试中得分最高,完成 68.4%任务,单试性能与 GPT-4 Turbo 相当,Opus 虽得分高但成本高、响应慢。Claude 3 Sonnet 性能类似 GPT-3.5 Turbo。
  • 理想的是 LLM 以某种差异形式返回代码编辑,较弱模型如 GPT-3.5 只能返回整个源代码的更新副本,Claude 3 Opus 与搜索/替换块配合效果好,Sonnet 只能处理较小源文件。
  • Claude 3 Opus 和 Sonnet 比 OpenAI 模型慢且贵,Claude 3 上下文窗口是 GPT-4 Turbo 的 2 倍,Claude 模型拒绝执行一些编码任务并返回错误,Claude APIs 不稳定。
    重要细节
  • 使用 Claude 3 Opus 与 aider 的方法:python -m pip install -U aider-chatexport ANTHROPIC_API_KEY=sk-...aider --opus
  • 基准测试用 aider 完成 133 个 Exercism Python 编码练习,LLM 有两次尝试机会,第一次给初始代码和任务描述,失败则给失败测试输出再试。
  • 较弱模型如 GPT-3.5 无法使用差异,Aider 对原始 GPT-4 用更高效的搜索/替换块,对新 GPT-4 Turbo 用统一差异。
  • Claude 3 APIs 不稳定,Aider 会自动指数退避重试。
阅读 20
0 条评论