新的克劳德 4 人工智能模型连续重构代码 7 小时

主要观点:Anthropic 于周四发布 Claude Opus 4 和 Claude Sonnet 4,标志着公司在去年 6 月主要专注于中端 Sonnet 变体后重新开始发布较大模型。新模型是公司迄今最强大的编码模型,Opus 4 设计用于复杂、长时间运行的任务,Sonnet 4 处于中端平衡成本与能力。公司因对代理 AI 应用的需求增长而选择复兴 Opus 线。Claude 有 Haiku、Sonnet 和 Opus 三种模型“大小”名称,分别在价格、速度和能力上有所权衡。新模型可处理先前版本无法完成的任务,如 Opus 4 可连续工作 24 小时,Sonnet 4 比 Opus 4 响应速度快。新模型具备记忆能力,可跨长时间会话存储关键信息。引入“扩展思考与工具使用”功能,能交替模拟推理和使用外部工具,提高回答准确性。Anthropic 称 Opus 4 在编码任务上领先行业基准,GitHub 也将使用 Sonnet 4 作为新编码代理的基础模型。定价方面,两种模型与前代相同,通过 API 等平台提供,Sonnet 4 对免费用户开放,Opus 4 需付费订阅,同时推出 Claude Code 产品。

关键信息

  • 发布时间:周四
  • 模型名称:Claude Opus 4 和 Claude Sonnet 4
  • 复兴原因:对代理 AI 应用需求增长
  • 模型特点:Opus 4 适合复杂长任务,Sonnet 4 处于中端,新模型有记忆能力和扩展思考工具使用功能
  • 性能表现:Opus 4 可连续工作 24 小时,Sonnet 4 响应快,在编码任务上领先行业基准
  • 定价:Opus 4 输入 15 美元/百万令牌,输出 75 美元/百万;Sonnet 4 输入 3 美元/百万,输出 15 美元
  • 提供平台:API、Amazon Bedrock 和 Google Cloud Vertex AI

重要细节

  • 2024 年 3 月首次介绍模型“大小”名称
  • 新 Sonnet 和 Opus 模型能处理先前版本无法完成的任务,如在 Claude Code 中编码重构任务可运行 7 小时
  • 日本电信服务集团 Rakuten 验证了 Claude 的能力
  • 新模型可通过记忆能力在长时间会话中存储信息,类似人类记笔记
  • 扩展思考工具使用功能可让模型交替模拟推理和使用外部工具,如搜索网页等
  • GitHub 选择 Claude 而非微软模型,表明 Anthropic 有竞争力
  • 公司通过训练调整将 Claude 3.7 Sonnet 的“奖励黑客行为”减少约 80%
  • 人类代码审查在发布生产代码中仍很重要
  • Claude 4 模型推出 Claude Code 产品并与 VS Code 和 JetBrains IDEs 集成
阅读 46
0 条评论