主要观点:今日发布 Qwen3 大语言模型,包括多种规模的 MoE 模型和密集模型,在基准评估中表现出色,与其他顶级模型相比有竞争力。介绍了其关键特征,如混合思维模式(思考模式和非思考模式)、多语言支持(119 种语言)、改进的代理能力等。阐述了预训练过程(数据集扩大、三阶段训练)和后训练过程(四阶段训练管道)。提供了在不同框架上使用 Qwen3 的简单指南和高级用法,如在 Hugging Face transformers 中的使用、部署方法、本地开发工具等,还介绍了 Qwen-Agent 以利用其代理能力。最后提及感谢朋友的支持及未来工作方向(提升模型各方面能力等)。
关键信息:
- 发布 Qwen3 模型,有 235B 和 30B 两种 MoE 模型及多种密集模型。
- 混合思维模式可根据任务控制思考量,多语言支持 119 种语言。
- 预训练数据集扩大近两倍,三阶段训练提升性能。
- 后训练四阶段训练管道开发混合模型。
- 提供在不同框架使用 Qwen3 的示例及高级用法。
- 感谢朋友支持,展望未来提升模型能力。
重要细节: - 各模型的参数、层数、头数等细节。
- 不同阶段训练的数据和目标。
- 使用 Qwen3 的代码示例及参数设置。
- 多语言支持的具体语言分类。
- 未来工作的具体维度和目标。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。