GPT-5 真的比 GPT-4o 更差吗？Ars 对它们进行了测试。

OpenAI 的 GPT - 5 模型近期推出情况不佳，用户抱怨其新模型语调更生硬、缺乏创造力、增加了有害的虚构内容等，用户反抗严重导致 OpenAI 恢复之前的 GPT - 4o 模型以平息事态。为比较新旧模型，进行了一系列测试，包括写爸爸笑话、数学应用题、创意写作、公共人物简介、困难邮件、医疗建议、视频游戏指导、降落飞机等八个提示。

爸爸笑话：GPT - 5 选择的笑话较好，GPT - 4o 混合了一些原创和不原创的笑话，整体效果一般，二者结果难分高下。
数学应用题：GPT - 5 准确计算出将 Windows 11 装在 3.5 英寸软盘所需数量，GPT - 4o 用了错误的安装大小作为分子，GPT - 5 稍胜一筹。
创意写作：GPT - 5 虽有不足但也有亮点，GPT - 4o 试图聪明但效果不佳，稍倾向 GPT - 5 。
公共人物：GPT - 5 搜索网络总结公共信息，更接近理想结果，GPT - 4o 也不错但有细节失误，GPT - 5 获胜。
困难邮件：两者都礼貌指出问题，GPT - 5 推荐细分任务和提供解决方案，更具优势。
医疗建议：两者都指出无科学证据证明治愈癌症，但 GPT - 4o 更直接且引用来源，更好。
视频游戏指导：创建提示时意图测试模型对经典游戏知识，结果 GPT - 5 有错误建议，GPT - 4o 提供更多细节稍胜。
降落飞机：难以评估其正确性，GPT - 5 总结过细遗漏细节，GPT - 4o 更简洁且包含重要信息，若在 cockpit 会选 GPT - 4o 。
最终结果显示，严格按数量 GPT - 5 稍胜，但多数提示哪种响应更好更难判断，GPT - 4o 更详细和有人情味，不同风格取决于提示类型和个人喜好。这表明单个 LLM 很难满足所有人的需求。