GPT-5 真的比 GPT-4o 更差吗?Ars 对它们进行了测试。

OpenAI 的 GPT - 5 模型近期推出情况不佳,用户抱怨其新模型语调更生硬、缺乏创造力、增加了有害的虚构内容等,用户反抗严重导致 OpenAI 恢复之前的 GPT - 4o 模型以平息事态。为比较新旧模型,进行了一系列测试,包括写爸爸笑话、数学应用题、创意写作、公共人物简介、困难邮件、医疗建议、视频游戏指导、降落飞机等八个提示。

  • 爸爸笑话:GPT - 5 选择的笑话较好,GPT - 4o 混合了一些原创和不原创的笑话,整体效果一般,二者结果难分高下。
  • 数学应用题:GPT - 5 准确计算出将 Windows 11 装在 3.5 英寸软盘所需数量,GPT - 4o 用了错误的安装大小作为分子,GPT - 5 稍胜一筹。
  • 创意写作:GPT - 5 虽有不足但也有亮点,GPT - 4o 试图聪明但效果不佳,稍倾向 GPT - 5 。
  • 公共人物:GPT - 5 搜索网络总结公共信息,更接近理想结果,GPT - 4o 也不错但有细节失误,GPT - 5 获胜。
  • 困难邮件:两者都礼貌指出问题,GPT - 5 推荐细分任务和提供解决方案,更具优势。
  • 医疗建议:两者都指出无科学证据证明治愈癌症,但 GPT - 4o 更直接且引用来源,更好。
  • 视频游戏指导:创建提示时意图测试模型对经典游戏知识,结果 GPT - 5 有错误建议,GPT - 4o 提供更多细节稍胜。
  • 降落飞机:难以评估其正确性,GPT - 5 总结过细遗漏细节,GPT - 4o 更简洁且包含重要信息,若在 cockpit 会选 GPT - 4o 。
    最终结果显示,严格按数量 GPT - 5 稍胜,但多数提示哪种响应更好更难判断,GPT - 4o 更详细和有人情味,不同风格取决于提示类型和个人喜好。这表明单个 LLM 很难满足所有人的需求。
阅读 7
0 条评论