小米发布了首个专为推理设计的大模型“Xiaomi MiMo”,并已开源。MiMo通过预训练和后训练联动提升推理能力,尤其在数学和代码领域表现突出。其7B参数规模的模型在公开测评中超越了更大规模的竞争对手模型。MiMo的训练包括三阶段的预训练和创新的强化学习算法,以提升模型的推理能力。
关键点
- 小米发布首个专为推理设计的大模型“Xiaomi MiMo”,并已开源。
- MiMo在数学推理和代码竞赛中表现优异,超越了OpenAI和阿里的更大规模模型。
- MiMo通过预训练和后训练的联动,结合创新的数据和算法,提升推理能力。
- MiMo采用了Test Difficulty Driven Reward和Easy Data Re-Sampling策略,以稳定强化学习训练。
- MiMo-7B全系列已在HuggingFace开源。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。