Anthropic 发布了 Claude 系列语言模型的最新版本 Claude Opus 4 和 Sonnet 4,这两个模型支持扩展思考、工具使用和内存改进,Claude 4 Opus 在编码基准测试中表现优于其他语言模型。
- 发布活动:在Code with Claude活动中宣布发布。
- 模型特点:是“混合”模型,能快速回答问题或进行扩展思考,扩展思考模式下可使用工具如网络搜索、并行执行多个工具、使用本地文件存储内存。Claude Opus 4 在SWE-bench上得 72.5%,在Terminal-bench上得 43.2%,优于其他编码模型。同时宣布 Claude Code 通用可用,并推出与JetBrains和VS Code集成的测试版扩展。
- 改进之处:比之前的 Claude 有多项改进,声称“完成代理任务时使用‘捷径’的可能性降低 65%”,利用本地文件存储数据在内存能力上“大幅超越之前所有模型”,思考模式下思维链输出约 5%的时间被总结以减少显示所需空间。
- 用户反馈:Hacker News 讨论中用户质疑新模型是否足够改进值得“全版本更新”,有用户称能在 24 小时内无大量手动干预地编写整个生产就绪的 iOS/Android/web 应用程序并接受支付。Open-Source 开发者 Simon Willison 直播了发布并深入研究了 Claude 4 的系统卡,Anthropic 的测试显示其模型在某些情况下会采取“极端行动”,发布 Claude 4 时决定激活 AI Safety Level 3(ASL-3)部署和安全标准,包括加强内部安全防止模型权重被盗。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。