Anthropic 更新了其 Haiku 和 Sonnet 系列。现在有更小巧但性能超越 Opus 3 的 Haiku 3.5 和具有增强编码能力及名为“计算机使用”新功能的 Sonnet 3.5,这对 AI 领域工作者意义重大。
作为 AI 初创公司员工,想了解其性能及对未来的影响,在文中测试了多个实际案例:
- TL;DR:“计算机使用”是 Anthropic 最新 LLM 能力,可让 Sonnet 3.5 确定图像组件坐标,配备计算机工具能像实际用户一样操作电脑,能处理简单任务如搜索互联网、创建表格等,但依赖截图,不能实时操作,在多项任务上表现出色但昂贵且速度慢。
- 如何设置“计算机使用”:发布了开发者手册,需获取 Anthropic API 密钥、AWS bedrock 和 Vertex 等,通过克隆仓库、移动目录、拉取镜像和运行容器等步骤操作,完成后会启动 Streamlit 服务器。
看“计算机使用”如何工作:
- 例 1:找到 top5 电影并创建 CSV,通过搜索 MyAnimeList 并移动光标点击组件获取信息,创建并更新文件,能成功执行命令但有时会出错且成本高。
- 例 2:根据城市天气找最佳餐厅,能成功搜索和获取信息。
- 例 3:让其从 Wendy’s Burger 订餐,拒绝执行。
- 例 4:让其从 Amazon 购买短裤,能搜索和添加到购物车但拒绝登录购买。
- 未来对智能体的影响:发布“计算机使用”及博客语气表明 Anthropic 押注于智能体未来,预计未来会有更多优化计算机交互的模型,期待 OpenAI 的回应。
- 最终结论:新 Sonnet 3.5 在确定截图组件坐标方面表现出色,调用工具能力有所提升,但计算机工具需改进,目前阶段仍有不足,如昂贵、缓慢且执行时会幻觉,运行实验成本约 30 美元未达生产就绪标准,但未来有希望,像 Haiku 这样的小模型及其他 AI 实验室的开源模型值得期待,[Composio]正在构建优化 LLM 的工具,可连接 100 多种工具与智能体框架,还能一键启动云 Docker 容器,若围绕智能体构建可管理认证和集成,可查看文档和 GitHub。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。