视频观看本文,请戳链接:视频链接

岁末年初之际,期盼着的是“万象更新”,而在人工智能领域,国外的两大巨头OpenAI和Google也是在2024年末的圣诞佳节期间,用接连发布的多个最新成果,献上了2025的迎新贺礼。而在我们的农历新年到来之际,国产大模型也不甘示弱,被誉为“AI界拼多多”的深度求索公司DeepSeek推出全新大模型Deepseek V3,被各大媒体赞誉为“国货之光”,国外的各方大佬也纷纷发文感叹这“神秘的东方力量”。


AI大牛卡帕西发文点评DeepSeek

不同于寻常大模型的科技背景,DeepSeek出身于国内顶级量化私募基金——幻方,其出圈的核心点是超高的“性价比”,在各大巨头预测未来需要百亿、千亿美金的训练成本的时候,Deepseek仅用了557.6万美元的超低训练成本,2048张H800,训练了不到两个月的时间,就做到了万卡集模型的效果。

从官方披露的数据来看,在知识类任务上,V3的表现非常接近当前表现最好的的模型 Claude-3.5-Sonnet-1022;在算法代码平台Codeforces上,V3已经遥遥领先于市面上已有的全部非o1类模型;而在数学的相关基准测试中,Deepseek V3的表现更是尤为突出。


DeepseekV3和国内外大模型测试数据对比

那么让DeepseekV3实现极致压榨术的秘诀到底是什么呢?其创新点就在于MoE架构——混合专家模型,Mixture-of-Experts。MoE架构基于模型并行的理念,将模型分解为多个专家模块,每个专家模块专注于特定任务进行深度优化,从而在保持参数规模的同时降低计算成本。而DeepSeekMoE在原有的MoE架构基础上,创新采用了“细粒度专家划分”和“共享专家分离”两大策略,进一步提高了专家模块的专业化程度。


DeepSeekMoE论文

“细粒度专家划分” 策略通过将专家进一步细分,使得每个专家能够更专注于特定的知识领域或任务,从而允许模型在处理复杂任务时,通过灵活组合多个专家来提高效果和效率。而“共享专家分离” 策略则是引入了“共享专家”的概念,将部分专家作为共享专家(Shared Expert),用于捕捉通用知识并减少路由专家之间的知识冗余。这一策略不仅优化了参数的使用,还降低了计算成本。

同时Deepseek采用了FP8混合精度训练框架,大部分核心计算内核均采用 FP8 精度(即8个二进制位)实现。相比传统的32位和16位格式,FP8虽然精度低了很多,但是占用空间小,计算快。而针对某些对低精度计算敏感的算子和一些低成本的算子,仍然保留了FP16、乃至FP32的精度,保证了数据的精确性。这就好比一个精打细算的主厨:日常备菜用普通的厨具就够了,但到了关键的烹饪步骤,就会换上最好的刀具。

Deepseek V3的“降本增效”无疑在人工智能大模型领域掀起了轩然大波,对比OpenAI ChatGPT Pro 200美金一个月的高端服务,Deepseek的亲民价格让更多普通用户和企业有了触及科技前沿大模型的可能,进一步赋能大众共享AI的能力。而作为本土出产的开源大模型,DeepSeek-V3的横空出世,更是展现了中国智慧的无限可能,在这辞旧迎新之际,开启了人工智能领域的“金蛇狂舞”。


AI4AI社区
1 声望2 粉丝

AI for All Initiative(简称:AI4AI)项目由1024数字产业基金会发起,旨在推动人工智能(AI)能力的广泛普及和受益,通过课程、实训、活动、竞赛、等形式培养更多AI倡导者和引领者。