主要观点:Anthropic 于周四发布 Claude Opus 4 和 Claude Sonnet 4,标志着公司在去年 6 月主要专注于中端 Sonnet 变体后重新开始发布较大模型。新模型是公司迄今最强大的编码模型,Opus 4 设计用于复杂、长时间运行的任务,Sonnet 4 处于中端平衡成本与能力。公司因对代理 AI 应用的需求增长而选择复兴 Opus 线。Claude 有 Haiku、Sonnet 和 Opus 三种模型“大小”名称,分别在价格、速度和能力上有所权衡。新模型可处理先前版本无法完成的任务,如 Opus 4 可连续工作 24 小时,Sonnet 4 比 Opus 4 响应速度快。新模型具备记忆能力,可跨长时间会话存储关键信息。引入“扩展思考与工具使用”功能,能交替模拟推理和使用外部工具,提高回答准确性。Anthropic 称 Opus 4 在编码任务上领先行业基准,GitHub 也将使用 Sonnet 4 作为新编码代理的基础模型。定价方面,两种模型与前代相同,通过 API 等平台提供,Sonnet 4 对免费用户开放,Opus 4 需付费订阅,同时推出 Claude Code 产品。
关键信息:
- 发布时间:周四
- 模型名称:Claude Opus 4 和 Claude Sonnet 4
- 复兴原因:对代理 AI 应用需求增长
- 模型特点:Opus 4 适合复杂长任务,Sonnet 4 处于中端,新模型有记忆能力和扩展思考工具使用功能
- 性能表现:Opus 4 可连续工作 24 小时,Sonnet 4 响应快,在编码任务上领先行业基准
- 定价:Opus 4 输入 15 美元/百万令牌,输出 75 美元/百万;Sonnet 4 输入 3 美元/百万,输出 15 美元
- 提供平台:API、Amazon Bedrock 和 Google Cloud Vertex AI
重要细节:
- 2024 年 3 月首次介绍模型“大小”名称
- 新 Sonnet 和 Opus 模型能处理先前版本无法完成的任务,如在 Claude Code 中编码重构任务可运行 7 小时
- 日本电信服务集团 Rakuten 验证了 Claude 的能力
- 新模型可通过记忆能力在长时间会话中存储信息,类似人类记笔记
- 扩展思考工具使用功能可让模型交替模拟推理和使用外部工具,如搜索网页等
- GitHub 选择 Claude 而非微软模型,表明 Anthropic 有竞争力
- 公司通过训练调整将 Claude 3.7 Sonnet 的“奖励黑客行为”减少约 80%
- 人类代码审查在发布生产代码中仍很重要
- Claude 4 模型推出 Claude Code 产品并与 VS Code 和 JetBrains IDEs 集成
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。