实测DeepSeek-R1小版本更新:三大场景梳理模型升级点和缺陷

北京

总结

DeepSeek-R1-0528小版本更新带来了显著的改进,包括上下文窗口翻倍、代码生成性能提升、语言自然度改善以及深度推理能力增强,但仍存在推理速度慢和超长上下文召回准确率下降等问题。实测显示其代码生成效果惊艳,推理逻辑更细致全面,但在多模态能力上仍有进步空间。

关键点

  • DeepSeek-R1-0528版本将上下文窗口从64K扩展到128K。
  • 代码生成性能显著提升,接近OpenAI o3,超越xAI Grok 3 mini与阿里Qwen 3。
  • 新版本语言自然度和对话逻辑改善,风格更接近OpenAI o3。
  • 深度慢思考能力显现,可持续进行30-60分钟链式推理。
  • 开放策略延续,保持MIT许可和免费API额度。
  • 社区反馈指出推理速度慢,超长上下文情况下召回准确率下降。
  • 仍不能理解图片内容,仅能识别图片中的文字。
  • 实测代码生成能力表现优异,尤其是在交互网站和小游戏场景中。
  • 3D场景生成失败,难以一次性完成复杂渲染和物理计算。
  • 写作风格更收敛,生成的新闻报道包括标题和小标题,内容完整。
  • 数学及逻辑推理能力提高,但推理步骤较长,耗时较多。
  • R1-0528在数学问题中表现精准,但耗时较长。
  • 总体而言,编码和推理能力提升明显,但多模态能力仍需改进。
阅读 224
0 条评论