深度求索开源DeepSeek-V3,一个6710亿参数的专家混合大型语言模型

DeepSeek-V3 开源大模型总结

主要观点

DeepSeek 开源了 DeepSeek-V3,这是一个包含 6710 亿参数的混合专家模型(Mixture-of-Experts, MoE),在多个大语言模型(LLM)基准测试中表现优异,超越了其他开源模型。该模型在预训练和指令微调中采用了多项创新技术,提供了更高的性能和成本效益。

关键信息

模型架构与改进

  • 架构:DeepSeek-V3 延续了 DeepSeek-V2 的 MoE 架构,包括多头潜在注意力(MLA)机制。
  • 参数:总参数为 6710 亿,但推理时每个 token 仅激活 370 亿参数。
  • 改进

    • 新的无辅助损失负载均衡策略,通过引入偏置项优化专家选择。
    • 多 token 预测(MTP)目标,提升模型性能。
    • 采用 FP8 混合精度训练,提高训练效率。
    • 优化并行性和跨节点通信,减少训练框架的管道气泡。

训练与性能

  • 预训练:使用 2048 个 NVIDIA H800 GPU 集群,消耗 278.8 万 GPU 小时,预训练了 14.8 万亿 token。
  • 指令微调:在 150 万条多领域数据上进行指令微调,包括监督微调和强化学习。
  • 基准测试:在 MMLU、MMLU-Pro、GPQA 等基准测试中表现优异,超越了 Qwen2.5、Llama 3.1、Claude-Sonnet-3.5 和 GPT-4o 等模型。

性能与成本

  • 性能:在多个测试中表现卓越,尤其是在编码和数学基准测试中。
  • 成本:训练成本约为 557.6 万美元,远低于 Llama 3.1 405B 的 30,840,000 GPU 小时训练成本。

重要细节

部署与局限性

  • 部署速度:相较于 DeepSeek-V2,DeepSeek-V3 的端到端生成速度提升了两倍以上,但仍存在进一步优化的空间。
  • 硬件依赖:随着硬件的进步,模型部署的局限性有望自然解决。

开发与开源

  • 训练框架:团队开发了 HAI-LLM 训练框架,并采用了 DualPipe 管道并行算法,优化了内存使用。
  • 开源资源:DeepSeek-V3 的代码和模型文件分别在 GithubHuggingface 上开源。

社区反馈

  • Aldo Cortesi:在 X 上发布了 DeepSeek-V3 的基准测试结果,称赞其在实用编码示例中与 Sonnet 并列第一,且生成速度是 Sonnet 的两倍。
  • Simon Willison:在博客中称赞 DeepSeek-V3 是目前最高排名的开源模型,并对其训练成本表示印象深刻。

总结

DeepSeek-V3 是一款性能卓越、成本效益高的开源大语言模型,通过多项技术创新在多个基准测试中表现优异。尽管在部署上仍有改进空间,但随着硬件的发展,这些问题有望得到解决。其开源代码和模型文件为研究者和开发者提供了宝贵的资源。

阅读 21
0 条评论