Prime Intellect 发布 INTELLECT-2:通过去中心化强化训练的 32B 参数模型

主要观点:Prime Intellect 发布了 320 亿参数语言模型[INTELLECT - 2],通过去中心化网络的完全异步强化学习训练,与传统集中式训练不同,其在无许可基础设施上开发,各任务分布且松散耦合。系统基于[PRIME - RL]训练框架,有多个组件协同工作,如通过 SHARDCAST 分发模型权重,TOPLOC 验证推理结果等。该模型在 285000 个数学和编程任务上训练,奖励信号精细控制推理计算预算,异步训练避免集中式系统瓶颈,性能评估在特定任务上有改进,未来工作包括提升计算比等。
关键信息

  • 模型名称:[INTELLECT - 2],参数 320 亿。
  • 训练方式:完全异步强化学习,去中心化网络。
  • 训练框架:[PRIME - RL],分离生成推理、更新模型等任务。
  • 训练数据:来自[NuminaMath - 1.5]等数据集的 285000 个任务。
  • 奖励信号:结合任务成功与令牌长度奖惩。
  • 性能评估:在特定任务上优于[QwQ - 32B],整体改进较有限。
  • 未来工作:提升计算比等。
    重要细节
  • 系统架构图来源:https://lh7 - rt.googleusercontent.com/docsz/AD_4nXc5Srp9bIgdmLdnNBXPRpccRjtu3k8K4 - ksqe687w7QP9TsHZJdg1gZYn7TX - DHqjTcqETmBWCqmtvqBcNGK_5oNuhawcWPj3e5w_UUMTOFI0ZowLR2BZ0bCmZn0I2eRMT3A3K2?key = bY - 9jbHCmyFdSt8xIdWxug
  • 相关代码等可在 Prime Intellect 网站获取:http://primeintellect.ai/inte... - 2 ,还有 Hugging Face 发布和聊天演示等。
  • 异步训练中 Rust 编排器协调贡献者,类似 P2P 或区块链系统。
阅读 22
0 条评论