关于 Anthropic 的计算机使用能力的笔记

Anthropic 更新了其 Haiku 和 Sonnet 系列。现在有更小巧但性能超越 Opus 3 的 Haiku 3.5 和具有增强编码能力及名为“计算机使用”新功能的 Sonnet 3.5，这对 AI 领域工作者意义重大。

作为 AI 初创公司员工，想了解其性能及对未来的影响，在文中测试了多个实际案例：

TL;DR：“计算机使用”是 Anthropic 最新 LLM 能力，可让 Sonnet 3.5 确定图像组件坐标，配备计算机工具能像实际用户一样操作电脑，能处理简单任务如搜索互联网、创建表格等，但依赖截图，不能实时操作，在多项任务上表现出色但昂贵且速度慢。
如何设置“计算机使用”：发布了开发者手册，需获取 Anthropic API 密钥、AWS bedrock 和 Vertex 等，通过克隆仓库、移动目录、拉取镜像和运行容器等步骤操作，完成后会启动 Streamlit 服务器。
看“计算机使用”如何工作：
- 例 1：找到 top5 电影并创建 CSV，通过搜索 MyAnimeList 并移动光标点击组件获取信息，创建并更新文件，能成功执行命令但有时会出错且成本高。
- 例 2：根据城市天气找最佳餐厅，能成功搜索和获取信息。
- 例 3：让其从 Wendy’s Burger 订餐，拒绝执行。
- 例 4：让其从 Amazon 购买短裤，能搜索和添加到购物车但拒绝登录购买。
未来对智能体的影响：发布“计算机使用”及博客语气表明 Anthropic 押注于智能体未来，预计未来会有更多优化计算机交互的模型，期待 OpenAI 的回应。
最终结论：新 Sonnet 3.5 在确定截图组件坐标方面表现出色，调用工具能力有所提升，但计算机工具需改进，目前阶段仍有不足，如昂贵、缓慢且执行时会幻觉，运行实验成本约 30 美元未达生产就绪标准，但未来有希望，像 Haiku 这样的小模型及其他 AI 实验室的开源模型值得期待，[Composio]正在构建优化 LLM 的工具，可连接 100 多种工具与智能体框架，还能一键启动云 Docker 容器，若围绕智能体构建可管理认证和集成，可查看文档和 GitHub。