DeepSeek发布R1模型家族
中国AI实验室DeepSeek于周一发布了其新的R1模型家族,采用MIT开源许可证。R1模型家族中最大的版本包含6710亿参数,DeepSeek声称该模型在多个数学和编程基准测试中表现与OpenAI的o1模拟推理(SR)模型相当。
模型发布细节
除了主要的DeepSeek-R1-Zero和DeepSeek-R1模型外,DeepSeek还发布了六个较小的“DeepSeek-R1-Distill”版本,参数范围从15亿到700亿。这些蒸馏模型基于现有的开源架构(如Qwen和Llama),并使用R1模型生成的数据进行训练。最小的版本可以在笔记本电脑上运行,而完整模型则需要更多的计算资源。
社区反应
这一发布立即引起了AI社区的关注,因为现有的开源权重模型在推理基准测试中通常落后于OpenAI的o1等专有模型。MIT许可证使得任何人都可以研究、修改或商业使用这些模型,这标志着公开可用的AI模型的潜力发生了转变。
独立AI研究员Simon Willison在测试了其中一个较小的模型后表示,模型在生成响应之前会进行大量的内部推理,这让他感到非常有趣。
模拟推理的工作原理
R1模型与典型的大型语言模型(LLM)不同,它采用了所谓的推理时间推理方法,模拟人类在解决问题时的思维链。这种“模拟推理”(SR)模型在涉及数学、物理和科学的任务中表现更佳,尽管生成响应需要更多时间。
基准测试结果
DeepSeek报告称,R1在多个基准测试中表现优于OpenAI的o1,包括AIME(数学推理测试)、MATH-500(词汇问题集)和SWE-bench Verified(编程评估工具)。然而,这些结果尚未得到独立验证。
中国AI实验室的竞争
TechCrunch报道称,DeepSeek、阿里巴巴和Moonshot AI的Kimi等三家中国实验室已经发布了声称与o1能力相当的模型,DeepSeek在11月首次预览了R1。
潜在的审查问题
如果在中国境外的云托管版本中运行,R1不会生成关于某些话题(如天安门广场或台湾自治)的响应,因为它必须“体现社会主义核心价值观”。这种过滤来自额外的审查层,如果在中国境外本地运行模型,则不会有此问题。
未来展望
乔治梅森大学的AI研究员Dean Ball表示,DeepSeek蒸馏模型的出色表现意味着非常强大的推理模型将继续广泛传播,并可以在本地硬件上运行,远离任何自上而下的控制机制。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。