“这是个柠檬”——OpenAI有史以来最大的AI模型发布，评价褒贬不一

OpenAI发布GPT-4.5：性能提升有限，成本大幅增加

OpenAI最新发布的大型语言模型GPT-4.5，虽然性能有所提升，但其高昂的成本和缓慢的处理速度引发了广泛讨论。与GPT-4o相比，GPT-4.5的输入成本高出30倍，输出成本高出15倍，而性能提升却非常有限。这一发布似乎证实了长期以来关于无监督学习大模型（LLMs）训练回报递减的传闻，并表明所谓的“扩展法则”可能已经达到了自然极限。

专家评价与争议

多位专家对GPT-4.5的评价褒贬不一。一位匿名AI专家称其为“柠檬”，认为其性能与价格不成正比。而OpenAI的批评者Gary Marcus则将其称为“无意义的发布”，认为OpenAI的许多成果都被高估了。前OpenAI研究员Andrej Karpathy则表示，GPT-4.5在某些方面确实优于GPT-4o，但提升非常微妙，难以具体指出。

OpenAI的回应与限制

OpenAI在发布时将其定位为“研究预览”，并明确指出了GPT-4.5的局限性。公司表示，GPT-4.5是一个非常大的计算密集型模型，成本高昂，无法替代GPT-4o。OpenAI还在评估是否长期在API中提供该模型，以平衡当前能力与未来模型的开发。

性能与成本对比

根据OpenAI的基准测试结果，GPT-4.5在AIME数学竞赛和GPQA科学评估等测试中的表现显著低于其模拟推理模型o1和o3。例如，GPT-4.5在AIME测试中仅得36.7分，而o3-mini得分为87.3分。此外，GPT-4.5的输入处理成本是o1的5倍，o3-mini的68倍。

在编码任务中，GPT-4.5的表现也相对较差，其知识截止日期为2023年10月，可能遗漏了开发框架的最新更新。独立测试显示，GPT-4.5在编码能力排行榜上仅排名第10，且性能与成本比表现不佳。

特定领域的提升

尽管存在诸多不足，GPT-4.5在某些领域仍表现出一定的提升。例如，在多语言通用知识测试（MMMLU）中，GPT-4.5得分为85.1%，高于GPT-4o的81.5%。此外，OpenAI报告称，GPT-4.5在减少幻觉（confabulations）方面有所改进，生成的虚假或误导性回应更少。

用户反馈与未来展望

OpenAI的测试显示，人类评估者在约57%的互动中更倾向于GPT-4.5的回应，表明其在用户体验方面有微小的提升。然而，这些提升伴随着显著的计算需求和成本增加。

OpenAI CEO Sam Altman在发布时表示，GPT-4.5在“氛围”上表现出色，但在分析能力上较弱。他还透露，由于GPU资源不足，公司无法广泛发布GPT-4.5。Altman此前曾表示，GPT-4.5将是OpenAI传统AI模型的最后一款，未来的GPT-5将结合“非推理”LLMs和模拟推理模型如o3。

高昂的价格与技术瓶颈

GPT-4.5的API价格高达每百万输入token 75美元，每百万输出token 150美元，远高于GPT-4o的价格。相比之下，OpenAI的旗舰推理模型o1 pro的价格仅为每百万输入token 15美元，输出token 60美元，而o3-mini的价格更低，仅为每百万输入token 1.10美元，输出token 4.40美元。

市场竞争与未来方向

尽管GPT-4.5的表现不尽如人意，但AI市场的竞争依然激烈。Anthropic的Claude 3.7 Sonnet在性能上远超GPT-4.5，且架构更为高效。未来，AI模型可能会转向新的架构，如o3的推理时推理或基于扩散的模型。

发布与可用性

GPT-4.5现已面向ChatGPT Pro用户开放，计划下周向Plus和Team用户推出，随后是Enterprise和Education用户。开发者可以通过OpenAI的各种API访问该模型，但公司对其长期可用性持不确定态度。