通义千问Qwen3正式发布并全部开源8款「混合推理模型」

北京

总结

Qwen3 是 Qwen 系列最新的大型语言模型,具备强大的代码、数学和通用能力。其旗舰模型和小型 MoE 模型在多个基准测试中表现优异,并开源了多个模型权重。Qwen3 支持多种思考模式和多语言,旨在推动全球研究人员和开发者的创新解决方案。

关键点

  • Qwen3 是 Qwen 系列最新的大型语言模型,具备强大的代码、数学和通用能力。
  • 旗舰模型 Qwen3-235B-A22B 和小型 MoE 模型 Qwen3-30B-A3B 在多个基准测试中表现优异。
  • 开源了多个 MoE 和 Dense 模型的权重,供研究和开发使用。
  • Qwen3 支持两种思考模式:思考模式和非思考模式,灵活应对不同复杂度的问题。
  • 支持 119 种语言和方言,扩展了国际应用的可能性。
  • 预训练数据集大幅扩展,覆盖 36 万亿个 token,提升模型性能。
  • 通过四阶段的后训练流程,增强了模型的推理和快速响应能力。
  • Qwen3 在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用,支持多种开发框架。
  • 提供了动态控制思考模式的机制,增强用户体验。
  • 未来计划优化模型架构和训练方法,推进通用人工智能的发展。
阅读 545
0 条评论