主要观点:Anthropic 发布新的 Claude 3 模型,在编码任务上表现更好,已用 Aider 的代码编辑基准套件进行基准测试。
关键信息:
- 2024 年 3 月 7 日发布 Claude 3 模型,新的 Claude 3 Opus 超越 OpenAI 所有模型,是与 AI 结对编程的最佳模型。
- Aider 是开源命令行聊天工具,依靠代码编辑基准评估 LLM 对现有代码的修改能力。
- Claude 3 Opus 在基准测试中得分最高,完成 68.4%任务,单试性能与 GPT-4 Turbo 相当,Opus 虽得分高但成本高、响应慢。Claude 3 Sonnet 性能类似 GPT-3.5 Turbo。
- 理想的是 LLM 以某种差异形式返回代码编辑,较弱模型如 GPT-3.5 只能返回整个源代码的更新副本,Claude 3 Opus 与搜索/替换块配合效果好,Sonnet 只能处理较小源文件。
- Claude 3 Opus 和 Sonnet 比 OpenAI 模型慢且贵,Claude 3 上下文窗口是 GPT-4 Turbo 的 2 倍,Claude 模型拒绝执行一些编码任务并返回错误,Claude APIs 不稳定。
重要细节: - 使用 Claude 3 Opus 与 aider 的方法:
python -m pip install -U aider-chat
,export ANTHROPIC_API_KEY=sk-...
,aider --opus
。 - 基准测试用 aider 完成 133 个 Exercism Python 编码练习,LLM 有两次尝试机会,第一次给初始代码和任务描述,失败则给失败测试输出再试。
- 较弱模型如 GPT-3.5 无法使用差异,Aider 对原始 GPT-4 用更高效的搜索/替换块,对新 GPT-4 Turbo 用统一差异。
- Claude 3 APIs 不稳定,Aider 会自动指数退避重试。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。