中国尖端“推理”模型媲美OpenAI o1——并可免费下载

DeepSeek发布R1模型家族

中国AI实验室DeepSeek于周一发布了其新的R1模型家族，采用MIT开源许可证。R1模型家族中最大的版本包含6710亿参数，DeepSeek声称该模型在多个数学和编程基准测试中表现与OpenAI的o1模拟推理（SR）模型相当。

模型发布细节

除了主要的DeepSeek-R1-Zero和DeepSeek-R1模型外，DeepSeek还发布了六个较小的“DeepSeek-R1-Distill”版本，参数范围从15亿到700亿。这些蒸馏模型基于现有的开源架构（如Qwen和Llama），并使用R1模型生成的数据进行训练。最小的版本可以在笔记本电脑上运行，而完整模型则需要更多的计算资源。

社区反应

这一发布立即引起了AI社区的关注，因为现有的开源权重模型在推理基准测试中通常落后于OpenAI的o1等专有模型。MIT许可证使得任何人都可以研究、修改或商业使用这些模型，这标志着公开可用的AI模型的潜力发生了转变。

独立AI研究员Simon Willison在测试了其中一个较小的模型后表示，模型在生成响应之前会进行大量的内部推理，这让他感到非常有趣。

模拟推理的工作原理

R1模型与典型的大型语言模型（LLM）不同，它采用了所谓的推理时间推理方法，模拟人类在解决问题时的思维链。这种“模拟推理”（SR）模型在涉及数学、物理和科学的任务中表现更佳，尽管生成响应需要更多时间。

基准测试结果

DeepSeek报告称，R1在多个基准测试中表现优于OpenAI的o1，包括AIME（数学推理测试）、MATH-500（词汇问题集）和SWE-bench Verified（编程评估工具）。然而，这些结果尚未得到独立验证。

中国AI实验室的竞争

TechCrunch报道称，DeepSeek、阿里巴巴和Moonshot AI的Kimi等三家中国实验室已经发布了声称与o1能力相当的模型，DeepSeek在11月首次预览了R1。

潜在的审查问题

如果在中国境外的云托管版本中运行，R1不会生成关于某些话题（如天安门广场或台湾自治）的响应，因为它必须“体现社会主义核心价值观”。这种过滤来自额外的审查层，如果在中国境外本地运行模型，则不会有此问题。

未来展望

乔治梅森大学的AI研究员Dean Ball表示，DeepSeek蒸馏模型的出色表现意味着非常强大的推理模型将继续广泛传播，并可以在本地硬件上运行，远离任何自上而下的控制机制。