OpenAI 的 GPT - 5 模型近期推出情况不佳,用户抱怨其新模型语调更生硬、缺乏创造力、增加了有害的虚构内容等,用户反抗严重导致 OpenAI 恢复之前的 GPT - 4o 模型以平息事态。为比较新旧模型,进行了一系列测试,包括写爸爸笑话、数学应用题、创意写作、公共人物简介、困难邮件、医疗建议、视频游戏指导、降落飞机等八个提示。
- 爸爸笑话:GPT - 5 选择的笑话较好,GPT - 4o 混合了一些原创和不原创的笑话,整体效果一般,二者结果难分高下。
- 数学应用题:GPT - 5 准确计算出将 Windows 11 装在 3.5 英寸软盘所需数量,GPT - 4o 用了错误的安装大小作为分子,GPT - 5 稍胜一筹。
- 创意写作:GPT - 5 虽有不足但也有亮点,GPT - 4o 试图聪明但效果不佳,稍倾向 GPT - 5 。
- 公共人物:GPT - 5 搜索网络总结公共信息,更接近理想结果,GPT - 4o 也不错但有细节失误,GPT - 5 获胜。
- 困难邮件:两者都礼貌指出问题,GPT - 5 推荐细分任务和提供解决方案,更具优势。
- 医疗建议:两者都指出无科学证据证明治愈癌症,但 GPT - 4o 更直接且引用来源,更好。
- 视频游戏指导:创建提示时意图测试模型对经典游戏知识,结果 GPT - 5 有错误建议,GPT - 4o 提供更多细节稍胜。
- 降落飞机:难以评估其正确性,GPT - 5 总结过细遗漏细节,GPT - 4o 更简洁且包含重要信息,若在 cockpit 会选 GPT - 4o 。
最终结果显示,严格按数量 GPT - 5 稍胜,但多数提示哪种响应更好更难判断,GPT - 4o 更详细和有人情味,不同风格取决于提示类型和个人喜好。这表明单个 LLM 很难满足所有人的需求。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。