总结
小红书hi lab首次开源文本大模型dots.llm1,该模型为中等规模的Mixture of Experts (MoE)模型,具有高效的训练流程和优异的性能表现。团队开源了一系列模型及训练信息,为大模型社区的研究提供了重要资源,并通过精心设计的数据处理和训练优化方法显著提升了模型的效果和效率。
关键点
- 小红书hi lab团队首次开源文本大模型dots.llm1,总参数量为1420亿,激活参数为140亿。
- dots.llm1在训练11.2T高质量token数据后,性能可与Qwen2.5-72B模型相媲美。
- 开源内容包括Pretrain阶段每1T token的中间检查点、Instruct模型、长文base模型、退火阶段模型及超参数等。
- dots.llm1的预训练数据来自Common Crawl和Spider抓取的web数据,经过严格清洗和去重,数据质量显著优于开源数据。
- 数据处理流程包括URL过滤、HTML正文提取、语种过滤、MD5去重、规则清洗、语义去重及类别均衡等。
- dots.llm1采用高效的Interleaved 1F1B流水并行和优化的Grouped GEMM框架,提升训练效率。
- dots.llm1在学习率调度和批量大小调整方面采用了稳定的训练策略,分阶段进行退火训练以优化性能。
- 模型通过两阶段监督微调,涵盖多轮对话、知识问答、复杂指令、数学与代码推理等场景,显著提升推理能力。
- dots.llm1在中英文、数学、代码等任务上表现优异,与Qwen2.5-32B-Instruct和Qwen2.5-72B-Instruct具备竞争力。
- 小红书hi lab团队希望通过开源dots.llm1促进社区研究,并计划继续开发更强的全模态大模型。
- 小红书hi lab团队的愿景是通过发展多元智能形态,拓展人机交互的可能性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。