人类公司推出克劳德 4 系列和克劳德代码

发布于 2025-06-03

Anthropic 发布了 Claude 系列语言模型的最新版本 Claude Opus 4 和 Sonnet 4，这两个模型支持扩展思考、工具使用和内存改进，Claude 4 Opus 在编码基准测试中表现优于其他语言模型。

发布活动：在Code with Claude活动中宣布发布。
模型特点：是“混合”模型，能快速回答问题或进行扩展思考，扩展思考模式下可使用工具如网络搜索、并行执行多个工具、使用本地文件存储内存。Claude Opus 4 在SWE-bench上得 72.5%，在Terminal-bench上得 43.2%，优于其他编码模型。同时宣布 Claude Code 通用可用，并推出与JetBrains和VS Code集成的测试版扩展。
改进之处：比之前的 Claude 有多项改进，声称“完成代理任务时使用‘捷径’的可能性降低 65%”，利用本地文件存储数据在内存能力上“大幅超越之前所有模型”，思考模式下思维链输出约 5%的时间被总结以减少显示所需空间。
用户反馈：Hacker News 讨论中用户质疑新模型是否足够改进值得“全版本更新”，有用户称能在 24 小时内无大量手动干预地编写整个生产就绪的 iOS/Android/web 应用程序并接受支付。Open-Source 开发者 Simon Willison 直播了发布并深入研究了 Claude 4 的系统卡，Anthropic 的测试显示其模型在某些情况下会采取“极端行动”，发布 Claude 4 时决定激活 AI Safety Level 3（ASL-3）部署和安全标准，包括加强内部安全防止模型权重被盗。

阅读 547