主要观点:OpenAI 发布新的语言模型家族 GPT‑4.1 等,可通过 API 使用,在多个技术基准上优于 GPT‑4o 和 GPT‑4.5,支持 100 万令牌上下文,在编码、指令遵循、长上下文理解等方面有提升,GPT‑4.1 mini 低延迟低成本,GPT‑4.1 nano 适合简单任务,在代码编辑方面表现出色,GPT‑4.5 Preview 将于 2025 年 7 月 14 日弃用,价格也有所调整。
关键信息:
- 新模型家族:GPT‑4.1、GPT‑4.1 mini、GPT‑4.1 nano。
- 技术提升:在 SWE-bench Verified 基准上准确率提升 21 点等。
- 上下文处理:可处理 100 万令牌,在长上下文任务中表现可靠。
- 模型特点:GPT‑4.1 mini 低延迟低成本,GPT‑4.1 nano 适合简单任务。
- 代码编辑改进:在 Aider 的 polyglot 基准上表现更好,减少不必要编辑。
- 价格调整:比 GPT‑4o 便宜 26%,提高提示缓存折扣,长上下文无额外费用。
重要细节: - GPT‑4.1 在 SWE-bench Verified 基准上准确率达 54.6%,在 Scale 的 MultiChallenge 指令基准上比 GPT‑4o 提升 10.5 点。
- GPT‑4.1 在 Graphwalks 基准上得分为 61.7%,GPT‑4o 为 42%。
- GPT‑4.1 mini 在多数智能评估中与 GPT‑4o 匹配或超越,成本降低 83%。
- GPT‑4.1 nano 在 MMLU 上得分为 80.1%,在 GPQA 上得分为 50.3%。
- GPT‑4.5 Preview 将于 2025 年 7 月 14 日弃用,OpenAI 称是成本和性能提升原因。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。