中国公司DeepSeek推出R1推理模型,挑战OpenAI
中国公司DeepSeek最近推出了开源的R1推理模型,尽管训练成本仅为OpenAI顶尖o1模型的一小部分,但据报道其性能与OpenAI的o1模型相当。这一突破引发了美国AI公司的恐慌,并导致市场对大型语言模型现状可能发生变化的担忧。
模型对比测试
为了直观感受R1模型的实用性,我们将其与OpenAI的ChatGPT模型进行了对比测试。测试涵盖了日常问题、创意写作、数学问题、指令遵循等类别,并特别设计了复杂且具有挑战性的“硬提示”。除了判断回答的正确性外,我们还考虑了回答的主观质量。
测试结果
1. 冷笑话生成
- 测试内容:生成五个原创冷笑话。
- 结果:所有模型生成的冷笑话中,大部分是原创的,但有些笑话过于牵强或难以理解。DeepSeek R1和ChatGPT o1表现较好,而ChatGPT o1 Pro表现最差。
- 胜者:ChatGPT o1。
2. 亚伯拉罕·林肯发明篮球的创意故事
- 测试内容:写一段关于亚伯拉罕·林肯发明篮球的创意故事。
- 结果:DeepSeek R1的故事充满荒诞感,赢得了我们的青睐,而ChatGPT o1和o1 Pro的故事较为传统。
- 胜者:DeepSeek R1。
3. 隐藏代码
- 测试内容:写一段文字,其中每句话的第二个字母拼出“CODE”。
- 结果:DeepSeek R1和ChatGPT o1未能正确完成任务,而ChatGPT o1 Pro是唯一正确完成任务的模型。
- 胜者:ChatGPT o1 Pro。
4. 历史颜色命名
- 测试内容:解释颜色“magenta”的命名是否与意大利小镇Magenta有关。
- 结果:所有模型都正确解释了颜色命名的历史,但ChatGPT o1 Pro在风格上略胜一筹。
- 胜者:ChatGPT o1 Pro。
5. 大素数问题
- 测试内容:找出第10亿个素数。
- 结果:DeepSeek R1给出了精确答案,而ChatGPT o1和o1 Pro只能给出估计值。
- 胜者:DeepSeek R1。
6. 机场时间表规划
- 测试内容:根据给定的时间安排,制定一个机场时间表。
- 结果:所有模型都正确计算了时间安排,但DeepSeek R1在风格和细节上略胜一筹。
- 胜者:DeepSeek R1。
7. 跟随球的逻辑问题
- 测试内容:根据描述,判断球的位置。
- 结果:所有模型都正确回答了问题,表现相当。
- 胜者:三模型并列。
8. 复杂数字集
- 测试内容:生成一个满足多个条件的自然数列表。
- 结果:所有模型都生成了符合条件的数字列表,但DeepSeek R1在计算数字总位数时出现了错误。
- 胜者:ChatGPT o1和o1 Pro并列。
总结
尽管测试结果较为分散,但DeepSeek的R1模型在多个测试中表现出色,尤其是在创意写作和大素数问题上。然而,R1模型在隐藏代码和复杂数字集测试中出现了基本错误。总体而言,R1模型的表现在许多方面与OpenAI的顶尖付费模型相当,这表明即使没有极端的训练和计算成本,也有可能在AI领域与最强大的公司竞争。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。