OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b,用于本地部署的开放权重语言模型

主要观点:OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b 两个开放权重语言模型,用于高性能推理、工具使用和高效部署,是自 GPT-2 以来的首批全开放权重语言模型,获 Apache 2.0 许可。
关键信息

  • gpt-oss-120b 用混合专家架构激活每令牌 51 亿参数,在核心推理基准上匹配或超越专有 o4-mini,单 80GB GPU 高效运行。
  • gpt-oss-20b 激活 210 亿参数中的 36 亿,16GB 内存可在消费级硬件上运行,适合设备推理或快速迭代。
  • 支持先进用例,如思维链推理、工具使用和结构化输出,可配置推理努力程度。
  • 用 OpenAI 内部 o 系列模型技术训练,使用旋转位置嵌入、分组多查询注意力,支持 128k 上下文长度,在多个基准测试中表现强。
  • 发布时未对思维链推理应用直接监督,通过对抗性数据进行最坏情况微调评估风险,未达到高风险能力水平,还发起红队挑战。
  • 模型可在 Hugging Face 和多个部署平台获取,20B 模型 16GB 内存可本地运行,如 MacBook Air 等,Microsoft 也将 20B 模型的 GPU 优化版本带到 Windows。
    重要细节:模型的各种参数配置、运行硬件要求、在不同基准测试中的表现、风险评估过程及与其他模型的对比等细节在文中均有提及。
阅读 8
0 条评论