DeepSeek-R1增强版能力测评

发布于 2025-05-29 北京

本文对DeepSeek R1增强版模型进行了能力测评，通过整理经典问题（prompt）评估其在不同场景下的应用能力，同时探讨了未来可能出现的大模型测评标准化的可能性。

DeepSeek R1模型于2025年5月28日进行了小版本试更新，本文基于经典问题对其能力进行测评。
测评原则包括：问题独立对话、不联网搜索、仅取首次回答结果。
经典问题测评示例包括：常识题（如数字大小比较、单词字母统计）、代码实现题（如天气卡片动画、太阳系模拟动画）、复杂物理模拟题（如旋转六边形交互）、游戏制作题（如井字棋）、智力题（如鸡兔同笼问题）及文学分析与创作题（如诗词分析、说唱对决生成）。
测评结果显示，DeepSeek R1模型基础能力表现良好，但仍有改进空间。
文章提出未来可能构建标准化的大模型测评体系，类似于数码产品的“跑分”、“续航”等规范，以便更客观地评估模型综合能力。
参考资料包括Llama 4系列模型、DeepSeek R1更新内容、Z-Bench中文测试集及OpenAI提示示例文档等。

阅读 359