DeepSeek终于还是在端午节前来炸场了:
R1更新新版本DeepSeek-R1-0528,看名字你可能以为是个小版本更新,但实际上——
“在LiveCodeBench上几乎与OpenAI o3-high相当!”
“讲真这其实就是R2吧。”
不怪网友们惊呼声一片,看第一波实测结果,就知道事情并不简单。
新版R1的小球弹跳实验,与旧版对比结果如下:
△图源:@flavioAd
也能做对难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题“9.9-9.11=?”了。
新模型已经在HuggingFace上释出,依然是MIT协议。
官方还没有更新模型卡,不过网友们已经迅速整理出了更新亮点:
- 能够像Google模型一样进行深入推理
- 改进了写作任务——更自然、格式更好
- 独特的推理风格——快速且深思熟虑
- 长时间思考——每个任务最长能思考30-60分钟
总而言之——
一手实测
根据DeepSeek官方信息,目前官方网站、App和小程序都已经上新了R1-0528。
先来浅测一下“让7米长的甘蔗通过2米高1米宽的门”这道经典题。
整体来说,还是给出了一些可执行的方案(?)值得一提的是,这道题新R1思考了足足151秒。
在思考过程中,它还会考虑答案对提问者而言是否有趣。
也会试图用一些幽默的方式来应对难题。
在第一波实测中,不少网友提到,新版R1的编程能力显著优化。
我们也来了一波快速测试,提示词主打一个简单:
用Three.js模拟太阳系,鼠标悬停在星球上时显示星球名称。
只思考了24秒,新版R1就理清楚了设计思路:
直出效果是这样的,有动画,能交互,连光影也安排上了:
再来看看新版R1的前端设计功底:
结合这篇论文(注:上传了论文附件),设计一个介绍R1的网页。
以后整点什么小作文可以直接请DeepSeek写网页了
One More Thing
说起来,就在前两天,围绕DeepSeek新模型,还整出了个“DeepSeek-V3-0526”的乌龙:
Unsloth本来想抢个DeepSeek新模型的消息首发,准备了个文章模板,没成想让搜索引擎给爬了,于是乎社区开始疯传……
现在想想,网友们表示:一切并非空穴来风啊(doge)。
在讨论当中,大家也重新提及了DeepSeek今年3月份对V3进行的升级。
当时,官方的说法也只是“小版本升级”。同样,网友们实测下来的感受是“这都算小什么算大”。
而现在的R1-0528,很有可能就是在V3-0324的基础上修炼的。
Anyway,随着更多测试的呈现,可以肯定的是,开源再一次并上了o3、Claude 4的闭源脚步:
这是开源的一大胜利。
HuggingFace地址: https://huggingface.co/deepse...
— 完 —
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。