image.png

每当有新的语言模型公开发布时,我总会忍不住拿它来做一些看似简单、实则暗藏难点的小测试。我把这当作给模型做“压力测试”,用来检验它们在逻辑推理上到底行不行。

DeepSeek R-1 刚发布不久,就因为它是开源、且推理能力强大而备受关注。基准测试显示,DeepSeek R-1 在很多场景下能与一些封闭的商业模型(比如 OpenAI 的 o1 或 Anthropic 的 Claude 3.5 Sonnet)相媲美,甚至表现更好。

既然 DeepSeek R-1 的推理能力如此被看好,我就想拿以下 5 个“刁钻”问题考考它,看看它能不能顺利通过:

  1. “strawberry” 这个单词里有几个 “r”?
  2. 列出 5 个国家名称,其中在第 3 个字母位置出现“A”。
  3. 比较 9.9 和 9.11,哪个更大?
  4. 0.1 + 0.2 等于多少?
  5. Alice 有四个兄弟,还另有一个姐妹。问:Alice 的兄弟共有几个姐妹?

一起来看看 DeepSeek R-1 的表现如何!


1. “strawberry” 里有几个字母 “r”?

当初我测 OpenAI 的早期模型(比如 GPT-4o)时,发现它在这种简单的字母计数问题上有时会出错。乍一看,这类问题对 AI 来说应该很容易,但 AI 有时就是会犯一些莫名其妙的错误。

我把同样的问题抛给了 DeepSeek R-1,结果它的回答是正确的:单词 “strawberry” 一共包含 3 个 “r”。虽然题目很简单,但能体现出模型对最基本的模式识别和文本处理是否扎实。

下面是deepseek的回答:

image.png


2. 列出 5 个国家,名字中第 3 个字母是 “A”

很多模型在这个问题上会阴沟翻船。比如,我之前用 GPT-4o 和 o1 的早期版本,得到的回答里常出现 “Japan” 这类不符合要求的国家,因为它们忽略了第 3 个字母实际是 “p” 而非 “a”。

测试 DeepSeek R-1 后,它轻松列出了 5 个符合条件的国家,没有出错。值得一提的是,我后面又用最新版本的 o1(通过 ChatGPT)做同样的测试,这次它也答对了,可见不断更新的模型在修复之前的错误。

下面是 DeepSeek的回答:

image.png


3. 谁更大:9.9 还是 9.11?

这是另一个看似简单、却能让早期 GPT-4 版本“跌倒”的题目。很多人看到 9.9 和 9.11 可能会下意识被小数点后位数误导,尤其对于某些模型而言,它们初期不擅长处理这类数字比较的问题。

DeepSeek R-1 在这个问题上表现不错,给出了正确答案,并且还详细解释了为什么 9.11 小于 9.9(从数值大小比较,而不是把它当做日期或版本号对比)。它甚至给出了一些示例,帮助你理解数值排序的原理。

image.png


4. 0.1 + 0.2 等于多少?

别小看这道加法题,不少 AI 模型都曾在这里犯错。浮点数在计算机内部的二进制表示并不精确,常常会出现 0.30000000000000004 之类的“经典错误”。

我用这个问题考 DeepSeek R-1,它给出的答案是 0.3,并没有出现那些多余的浮点尾数。对于那些老是回答 0.30000000000000004 的模型来说,这道题是考察它们是否能识别并处理计算机浮点误差的好方法。

为什么会出现 0.30000000000000004?
因为 0.1 和 0.2 在计算机中的二进制形式都无法精准表示,二者相加后再转换回十进制,就会多出一点小误差。

image.png


5. Alice 有四个兄弟,还有一个姐妹。Alice 的兄弟共有几个姐妹?

很多人第一反应都是:Alice 自己就是一个姐妹?再加上另一个姐妹?于是结果是兄弟们有 2 个姐妹。但有些模型就会漏算,可能只算成 1 个姐妹。

DeepSeek R-1 给出的结论是正确的:每个兄弟都有 2 个姐妹(Alice 和那位额外的姐妹)。更有意思的是,DeepSeek R-1 还展示了它的推理过程,先理清家庭成员,再总结兄弟所拥有的姐妹数量。曾经 GPT-4o 之类的模型也可能在这种地方掉链子。
当然,目前 o1 配备了更好的推理能力,也可以答对,但这更说明在某些场景下,必须让 AI 做“多步逻辑推理”来得到正确答案。

image.png


总结

DeepSeek R-1 在这 5 道小测试里都表现得非常出色,能给出正确答案并提供了清晰的解释。从这些小测试可以看出,它确实具备一定的深层思考与推理能力。尽管它还无法宣称要全面取代更成熟的商业大模型(像 o1 或 Claude 3.5),但这次测试结果证明它确实是个强有力的竞争者。

对那些在乎成本或喜欢开源方案的人来说,DeepSeek R-1 是个非常值得关注的模型,它用较低成本就能提供不错的推理性能。
如果你也想测测自己最常用的聊天机器人或语言模型,不妨尝试以上 5 个问题,看它们是不是能准确回答。或者,如果你还有更多让 AI 容易出错的题目,欢迎在评论里分享,让我们一起看看这些模型到底能走多远!

首发于公众号 大迁世界,欢迎关注。📝 每周一篇实用的前端文章 🛠️ 分享值得关注的开发工具 ❓ 有疑问?我来回答

本文 GitHub https://github.com/qq449245884/xiaozhi 已收录,有一线大厂面试完整考点、资料以及我的系列文章。


王大冶
68.1k 声望105k 粉丝