10 月 23 日,Anthropic AI 发布了升级版模型 Claude 3.5 Sonnet,以及新模型 Claude 3.5 Haiku。值得注意的是,Claude 3.5 Sonnet 版本号虽未变,但却迎来了一项突破性更新:计算机使用(Computer Use)。

图片

新功能:“Computer Use”,引领 Agent 变革

在 Anthropic 的演示中,AI 可以根据用户指令查看屏幕、移动光标、点击按钮和输入文本,模仿人类与计算机的交互方式。不同于以往 Agent 根据预设好的工作流执行特定任务,Anthropic 正在尝试教会 AI 使用通用计算机技能,使其能够使用一系列为人设计的标准工具和软件程序。直接看一下官方案例

图片

在这个填写表格的例子中,所需数据分散在电脑的不同位置,Claude 首先截取了用户的屏幕,很快发现所需要的数据不在表格中;于是,它立刻切换到 CRM 去搜索;找到后,它开始滚动页面,查找并填写对应的信息,最后提交了表格。

Anthropic 方面表示,Claude 3.5 Sonnet 是首个提供“计算机使用”能力公开 beta 测试的前沿 AI 模型。目前,开发者已经可以通过 API 体验这项功能。当然,这项功能仍处于实验阶段,时不时就会“翻车”。比如 Claude 有时也会“捅娄子”,在录制计算机使用演示时,不小心点击停止了长时间的屏幕录制,导致所有镜头都丢失。它甚至学会了“摸鱼”,Claude 会突然中断现场的编码演示,开始浏览黄石国家公园的照片。Anthropic 方面坦言,提前发布也是为了获得开发者反馈,从而快速改进。

目前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等多家知名公司,已经在探索 Claude 的新潜能,让它们执行数十步甚至数百步的复杂任务。比如,Replit 正在利用 Claude 3.5 Sonnet 的 Computer Use 能力和 UI 导航为 Replit Agent 开发一个关键功能,在构建应用程序过程中对其实时评估。

新升级:Claude 3.5 Sonnet,编码能力领先

从评分表现看,升级后的 Claude 3.5 Sonnet 性能大幅提升。特别是在编码方面,Claude 3.5 Sonnet 将 SWE-bench Verified 的性能从 33.4% 提高到了 49.0%,其得分高于目前所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为编程设计的专用系统。一些早期测试客户反馈,进一步印证了升级后 Claude 3.5 Sonnet 的性能飞跃:

  • GitLab:在 DevSecOps 任务测试中,发现 Claude 3.5 Sonnet 在不增加延迟的前提下,推理能力显著提升(各用例最高提升10%),使其成为驱动复杂软件开发流程的理想选择
  • Cognition:将新版 Claude 3.5 Sonnet 应用于自主 AI 评估,在编码、规划和问题解决等方面,相较前代模型均取得了实质性进步
  • The Browser Company:在使用该模型自动化网络工作流程时发现,Claude 3.5 Sonnet 的表现超越了他们此前测试过的所有模型

升级后的 Claude 3.5 Sonnet 现在对所有用户开放,且价格不变。开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机使用 Beta 进行构建。

新推出:Claude 3.5 Haiku,性能速度兼备

Claude 3.5 Haiku 是 Anthropic 速度最快的模型。

在相同的成本和类似的速度下,Claude 3.5 Haiku 相比上一代各项技能全面提升。甚至,多项智能基准测试超越了上一代最强大的模型 Claude 3 Opus。

Claude 3.5 Haiku 在编码方面的表现同样卓越。在 SWE-bench Verified 测试中,Claude 3.5 Haiku 取得了 40.6% 的高分,优于原始版本的 Claude 3.5 Sonnet 和 GPT-4o。

Claude 3.5 Haiku 的优势主要有三点:低延迟响应、更精准的指令执行能力和更准确的工具使用。这使得它非常适合面向用户的产品开发、专门的子智能体任务处理,以及基于海量数据(如购买记录、价格信息或库存数据)生成个性化体验。

Claude 3.5 Haiku 的定价起始为每百万输入 Token 0.25 美元,每百万输出Token 1.25 美元,将于本月稍晚些时候在多平台发布,包括 Anthropic 的第一方 API、亚马逊 Bedrock 和谷歌云 Vertex AI(先开放纯文本模型)。


思否编辑部
4.3k 声望116.9k 粉丝

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。