Agent 一夜变天！Claude 3.5 可以像人一样操作电脑了🙀

10 月 23 日，Anthropic AI 发布了升级版模型 Claude 3.5 Sonnet，以及新模型 Claude 3.5 Haiku。值得注意的是，Claude 3.5 Sonnet 版本号虽未变，但却迎来了一项突破性更新：计算机使用（Computer Use）。

新功能：“Computer Use”，引领 Agent 变革

在 Anthropic 的演示中，AI 可以根据用户指令查看屏幕、移动光标、点击按钮和输入文本，模仿人类与计算机的交互方式。不同于以往 Agent 根据预设好的工作流执行特定任务，Anthropic 正在尝试教会 AI 使用通用计算机技能，使其能够使用一系列为人设计的标准工具和软件程序。直接看一下官方案例

在这个填写表格的例子中，所需数据分散在电脑的不同位置，Claude 首先截取了用户的屏幕，很快发现所需要的数据不在表格中；于是，它立刻切换到 CRM 去搜索；找到后，它开始滚动页面，查找并填写对应的信息，最后提交了表格。

Anthropic 方面表示，Claude 3.5 Sonnet 是首个提供“计算机使用”能力公开 beta 测试的前沿 AI 模型。目前，开发者已经可以通过 API 体验这项功能。当然，这项功能仍处于实验阶段，时不时就会“翻车”。比如 Claude 有时也会“捅娄子”，在录制计算机使用演示时，不小心点击停止了长时间的屏幕录制，导致所有镜头都丢失。它甚至学会了“摸鱼”，Claude 会突然中断现场的编码演示，开始浏览黄石国家公园的照片。Anthropic 方面坦言，提前发布也是为了获得开发者反馈，从而快速改进。

目前，Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等多家知名公司，已经在探索 Claude 的新潜能，让它们执行数十步甚至数百步的复杂任务。比如，Replit 正在利用 Claude 3.5 Sonnet 的 Computer Use 能力和 UI 导航为 Replit Agent 开发一个关键功能，在构建应用程序过程中对其实时评估。

新升级：Claude 3.5 Sonnet，编码能力领先

从评分表现看，升级后的 Claude 3.5 Sonnet 性能大幅提升。特别是在编码方面，Claude 3.5 Sonnet 将 SWE-bench Verified 的性能从 33.4% 提高到了 49.0%，其得分高于目前所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为编程设计的专用系统。一些早期测试客户反馈，进一步印证了升级后 Claude 3.5 Sonnet 的性能飞跃：

GitLab：在 DevSecOps 任务测试中，发现 Claude 3.5 Sonnet 在不增加延迟的前提下，推理能力显著提升（各用例最高提升10%），使其成为驱动复杂软件开发流程的理想选择
Cognition：将新版 Claude 3.5 Sonnet 应用于自主 AI 评估，在编码、规划和问题解决等方面，相较前代模型均取得了实质性进步
The Browser Company：在使用该模型自动化网络工作流程时发现，Claude 3.5 Sonnet 的表现超越了他们此前测试过的所有模型

升级后的 Claude 3.5 Sonnet 现在对所有用户开放，且价格不变。开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用计算机使用 Beta 进行构建。

新推出：Claude 3.5 Haiku，性能速度兼备

Claude 3.5 Haiku 是 Anthropic 速度最快的模型。

在相同的成本和类似的速度下，Claude 3.5 Haiku 相比上一代各项技能全面提升。甚至，多项智能基准测试超越了上一代最强大的模型 Claude 3 Opus。

Claude 3.5 Haiku 在编码方面的表现同样卓越。在 SWE-bench Verified 测试中，Claude 3.5 Haiku 取得了 40.6% 的高分，优于原始版本的 Claude 3.5 Sonnet 和 GPT-4o。

Claude 3.5 Haiku 的优势主要有三点：低延迟响应、更精准的指令执行能力和更准确的工具使用。这使得它非常适合面向用户的产品开发、专门的子智能体任务处理，以及基于海量数据（如购买记录、价格信息或库存数据）生成个性化体验。

Claude 3.5 Haiku 的定价起始为每百万输入 Token 0.25 美元，每百万输出Token 1.25 美元，将于本月稍晚些时候在多平台发布，包括 Anthropic 的第一方 API、亚马逊 Bedrock 和谷歌云 Vertex AI（先开放纯文本模型）。

Agent 一夜变天！Claude 3.5 可以像人一样操作电脑了🙀

新功能：“Computer Use”，引领 Agent 变革

新升级：Claude 3.5 Sonnet，编码能力领先

新推出：Claude 3.5 Haiku，性能速度兼备

思否编辑部

引用和评论

倒计时 1 个月！第二届 AIGC 与智能体生态大会即将开启万亿市场（含嘉宾更新）

Cline VS Code 插件详解：功能与获取 Claude3.7 API key 自定义配置

🚀 解锁 Claude 强大功能：国内开发者轻松获取 Anthropic API Key 保姆级教程！

如何正确看待 AI 的推理能力？走出人类中心主义

AIdea 2.0 发布：支持 DeepSeek、Claude 3.7 Sonnet 深度思考、联网搜索

claude 3.5 官网国内怎么使用！1分钟教你在国内轻松驾驭claude 3.5

MCP Server开发教程