DeepSeek R1与OpenAI顶尖推理模型的实际表现如何？ - SegmentFault 思否

DeepSeek R1与OpenAI顶尖推理模型的实际表现如何？

发布于 1 月 29 日

中国公司DeepSeek推出R1推理模型，挑战OpenAI

中国公司DeepSeek最近推出了开源的R1推理模型，尽管训练成本仅为OpenAI顶尖o1模型的一小部分，但据报道其性能与OpenAI的o1模型相当。这一突破引发了美国AI公司的恐慌，并导致市场对大型语言模型现状可能发生变化的担忧。

模型对比测试

为了直观感受R1模型的实用性，我们将其与OpenAI的ChatGPT模型进行了对比测试。测试涵盖了日常问题、创意写作、数学问题、指令遵循等类别，并特别设计了复杂且具有挑战性的“硬提示”。除了判断回答的正确性外，我们还考虑了回答的主观质量。

测试结果

1. 冷笑话生成

测试内容：生成五个原创冷笑话。
结果：所有模型生成的冷笑话中，大部分是原创的，但有些笑话过于牵强或难以理解。DeepSeek R1和ChatGPT o1表现较好，而ChatGPT o1 Pro表现最差。
胜者：ChatGPT o1。

2. 亚伯拉罕·林肯发明篮球的创意故事

测试内容：写一段关于亚伯拉罕·林肯发明篮球的创意故事。
结果：DeepSeek R1的故事充满荒诞感，赢得了我们的青睐，而ChatGPT o1和o1 Pro的故事较为传统。
胜者：DeepSeek R1。

3. 隐藏代码

测试内容：写一段文字，其中每句话的第二个字母拼出“CODE”。
结果：DeepSeek R1和ChatGPT o1未能正确完成任务，而ChatGPT o1 Pro是唯一正确完成任务的模型。
胜者：ChatGPT o1 Pro。

4. 历史颜色命名

测试内容：解释颜色“magenta”的命名是否与意大利小镇Magenta有关。
结果：所有模型都正确解释了颜色命名的历史，但ChatGPT o1 Pro在风格上略胜一筹。
胜者：ChatGPT o1 Pro。

5. 大素数问题

测试内容：找出第10亿个素数。
结果：DeepSeek R1给出了精确答案，而ChatGPT o1和o1 Pro只能给出估计值。
胜者：DeepSeek R1。

6. 机场时间表规划

测试内容：根据给定的时间安排，制定一个机场时间表。
结果：所有模型都正确计算了时间安排，但DeepSeek R1在风格和细节上略胜一筹。
胜者：DeepSeek R1。

7. 跟随球的逻辑问题

测试内容：根据描述，判断球的位置。
结果：所有模型都正确回答了问题，表现相当。
胜者：三模型并列。

8. 复杂数字集

测试内容：生成一个满足多个条件的自然数列表。
结果：所有模型都生成了符合条件的数字列表，但DeepSeek R1在计算数字总位数时出现了错误。
胜者：ChatGPT o1和o1 Pro并列。

总结

尽管测试结果较为分散，但DeepSeek的R1模型在多个测试中表现出色，尤其是在创意写作和大素数问题上。然而，R1模型在隐藏代码和复杂数字集测试中出现了基本错误。总体而言，R1模型的表现在许多方面与OpenAI的顶尖付费模型相当，这表明即使没有极端的训练和计算成本，也有可能在AI领域与最强大的公司竞争。

How does DeepSeek R1 really fare against OpenAI’s best reasoning models?

https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/

阅读 47

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。