Anthropic发布新版Claude模型及计算机使用功能

Anthropic发布Claude 3.5 Haiku和改进版Claude 3.5 Sonnet

Anthropic发布了两个新模型:Claude 3.5 Haiku和改进版的Claude 3.5 Sonnet。其中,Claude 3.5 Haiku是该公司最快的模型,在SWE-bench Verified编码基准测试中表现优于GPT-4o和上一代Claude 3.5 Sonnet。改进版的Claude 3.5 Sonnet在该基准测试中表现更佳,Anthropic称其“高于所有公开可用的模型”。

Claude 3.5 Sonnet新增计算机使用功能

Claude 3.5 Sonnet新增了一项功能,允许模型以与人类用户相同的方式与计算机的图形用户界面(GUI)进行交互。这一功能使得模型能够解释屏幕上的图像、移动鼠标指针、点击按钮并通过虚拟键盘输入文本,从而与几乎任何程序进行交互,而不仅仅是支持API的程序。

Anthropic表示,这一功能代表了AI开发的全新方向。过去,LLM开发者通常让工具适应模型,创建定制环境,让AI使用专门设计的工具完成任务。现在,模型可以适应工具,Claude能够融入日常使用的计算机环境。Anthropic的目标是让Claude能够像人一样使用现有的计算机软件。

计算机使用功能的关键技术

该功能依赖于Claude的图像解释能力。Anthropic描述这一过程为“截取屏幕截图并将其拼接在一起”。一个关键的技术突破是训练模型准确计算像素,因为许多LLM在类似任务(如计算单词中的字母数量)上表现不佳。如果没有这一能力,模型将无法将计算机鼠标移动到正确的位置。

OSWorld基准测试表现

Claude目前在OSWorld基准测试排行榜上名列前茅,该测试追踪AI代理与计算机交互的能力。虽然人类在该测试中的得分通常高于70%,但Claude的最佳得分为14.9%。相比之下,GPT-4在同一类别中的得分为7.7%。

用户讨论与行业影响

Hacker News上的用户讨论了计算机使用功能,指出其在自动化各种常见业务流程中的潜力。有用户表示,这一功能是巨大的进步,因为现实世界中的大多数软件直接与人类交互,而没有明确的公共API可供集成。Anthropic的这一功能为自动化这些复杂且值得自动化的商业用例提供了强大的连接器。

功能局限性

尽管功能强大,Anthropic也指出该功能目前仍然“速度较慢且容易出错”。公司Claude关系负责人Alex Albert在X上发帖表示,该功能尚未完美,模型有时会在基本的计算机操作上遇到困难,导致一些有趣的情况。例如,在录制演示时,Claude意外停止了长时间的屏幕录制,导致所有镜头丢失。后来,Claude在编码演示中休息,开始浏览黄石国家公园的照片。

公开测试与示例代码

计算机使用功能目前处于公开测试阶段。Anthropic还在GitHub上发布了示例代码,展示了如何使用这一功能。

阅读 45
0 条评论