新的克劳德 4 人工智能模型连续重构代码 7 小时

主要观点：Anthropic 于周四发布 Claude Opus 4 和 Claude Sonnet 4，标志着公司在去年 6 月主要专注于中端 Sonnet 变体后重新开始发布较大模型。新模型是公司迄今最强大的编码模型，Opus 4 设计用于复杂、长时间运行的任务，Sonnet 4 处于中端平衡成本与能力。公司因对代理 AI 应用的需求增长而选择复兴 Opus 线。Claude 有 Haiku、Sonnet 和 Opus 三种模型“大小”名称，分别在价格、速度和能力上有所权衡。新模型可处理先前版本无法完成的任务，如 Opus 4 可连续工作 24 小时，Sonnet 4 比 Opus 4 响应速度快。新模型具备记忆能力，可跨长时间会话存储关键信息。引入“扩展思考与工具使用”功能，能交替模拟推理和使用外部工具，提高回答准确性。Anthropic 称 Opus 4 在编码任务上领先行业基准，GitHub 也将使用 Sonnet 4 作为新编码代理的基础模型。定价方面，两种模型与前代相同，通过 API 等平台提供，Sonnet 4 对免费用户开放，Opus 4 需付费订阅，同时推出 Claude Code 产品。

关键信息：

发布时间：周四
模型名称：Claude Opus 4 和 Claude Sonnet 4
复兴原因：对代理 AI 应用需求增长
模型特点：Opus 4 适合复杂长任务，Sonnet 4 处于中端，新模型有记忆能力和扩展思考工具使用功能
性能表现：Opus 4 可连续工作 24 小时，Sonnet 4 响应快，在编码任务上领先行业基准
定价：Opus 4 输入 15 美元/百万令牌，输出 75 美元/百万；Sonnet 4 输入 3 美元/百万，输出 15 美元
提供平台：API、Amazon Bedrock 和 Google Cloud Vertex AI

重要细节：

2024 年 3 月首次介绍模型“大小”名称
新 Sonnet 和 Opus 模型能处理先前版本无法完成的任务，如在 Claude Code 中编码重构任务可运行 7 小时
日本电信服务集团 Rakuten 验证了 Claude 的能力
新模型可通过记忆能力在长时间会话中存储信息，类似人类记笔记
扩展思考工具使用功能可让模型交替模拟推理和使用外部工具，如搜索网页等
GitHub 选择 Claude 而非微软模型，表明 Anthropic 有竞争力
公司通过训练调整将 Claude 3.7 Sonnet 的“奖励黑客行为”减少约 80%
人类代码审查在发布生产代码中仍很重要
Claude 4 模型推出 Claude Code 产品并与 VS Code 和 JetBrains IDEs 集成