“这是个柠檬”——OpenAI有史以来最大的AI模型发布,评价褒贬不一

OpenAI发布GPT-4.5:性能提升有限,成本大幅增加

OpenAI最新发布的大型语言模型GPT-4.5,虽然性能有所提升,但其高昂的成本和缓慢的处理速度引发了广泛讨论。与GPT-4o相比,GPT-4.5的输入成本高出30倍,输出成本高出15倍,而性能提升却非常有限。这一发布似乎证实了长期以来关于无监督学习大模型(LLMs)训练回报递减的传闻,并表明所谓的“扩展法则”可能已经达到了自然极限。

专家评价与争议

多位专家对GPT-4.5的评价褒贬不一。一位匿名AI专家称其为“柠檬”,认为其性能与价格不成正比。而OpenAI的批评者Gary Marcus则将其称为“无意义的发布”,认为OpenAI的许多成果都被高估了。前OpenAI研究员Andrej Karpathy则表示,GPT-4.5在某些方面确实优于GPT-4o,但提升非常微妙,难以具体指出。

OpenAI的回应与限制

OpenAI在发布时将其定位为“研究预览”,并明确指出了GPT-4.5的局限性。公司表示,GPT-4.5是一个非常大的计算密集型模型,成本高昂,无法替代GPT-4o。OpenAI还在评估是否长期在API中提供该模型,以平衡当前能力与未来模型的开发。

性能与成本对比

根据OpenAI的基准测试结果,GPT-4.5在AIME数学竞赛和GPQA科学评估等测试中的表现显著低于其模拟推理模型o1和o3。例如,GPT-4.5在AIME测试中仅得36.7分,而o3-mini得分为87.3分。此外,GPT-4.5的输入处理成本是o1的5倍,o3-mini的68倍。

在编码任务中,GPT-4.5的表现也相对较差,其知识截止日期为2023年10月,可能遗漏了开发框架的最新更新。独立测试显示,GPT-4.5在编码能力排行榜上仅排名第10,且性能与成本比表现不佳。

特定领域的提升

尽管存在诸多不足,GPT-4.5在某些领域仍表现出一定的提升。例如,在多语言通用知识测试(MMMLU)中,GPT-4.5得分为85.1%,高于GPT-4o的81.5%。此外,OpenAI报告称,GPT-4.5在减少幻觉(confabulations)方面有所改进,生成的虚假或误导性回应更少。

用户反馈与未来展望

OpenAI的测试显示,人类评估者在约57%的互动中更倾向于GPT-4.5的回应,表明其在用户体验方面有微小的提升。然而,这些提升伴随着显著的计算需求和成本增加。

OpenAI CEO Sam Altman在发布时表示,GPT-4.5在“氛围”上表现出色,但在分析能力上较弱。他还透露,由于GPU资源不足,公司无法广泛发布GPT-4.5。Altman此前曾表示,GPT-4.5将是OpenAI传统AI模型的最后一款,未来的GPT-5将结合“非推理”LLMs和模拟推理模型如o3。

高昂的价格与技术瓶颈

GPT-4.5的API价格高达每百万输入token 75美元,每百万输出token 150美元,远高于GPT-4o的价格。相比之下,OpenAI的旗舰推理模型o1 pro的价格仅为每百万输入token 15美元,输出token 60美元,而o3-mini的价格更低,仅为每百万输入token 1.10美元,输出token 4.40美元。

市场竞争与未来方向

尽管GPT-4.5的表现不尽如人意,但AI市场的竞争依然激烈。Anthropic的Claude 3.7 Sonnet在性能上远超GPT-4.5,且架构更为高效。未来,AI模型可能会转向新的架构,如o3的推理时推理或基于扩散的模型。

发布与可用性

GPT-4.5现已面向ChatGPT Pro用户开放,计划下周向Plus和Team用户推出,随后是Enterprise和Education用户。开发者可以通过OpenAI的各种API访问该模型,但公司对其长期可用性持不确定态度。

阅读 4 (UV 4)
0 条评论