Agentica 项目的开源 DeepCoder 模型在编码基准测试中优于 OpenAI 的 O1

主要观点:[Agentica Project]和[Together AI]发布了基于[Deepseek-R1-Distilled-Qwen-14B]的开源 AI 编码模型[DeepCoder-14B-Preview],在[LiveCodeBench]上通过率达 60.6%,超过 OpenAI 的 o1 模型且与 o3-mini 性能相当,该模型通过强化学习在 24K 编码问题数据集上微调,开发者改进了[verl]分布式 RL 框架提高训练效率 2 倍,在多个编码基准和数学基准上表现出色,目标是实现 LLM 的强化学习训练民主化,分享了训练过程细节和克服的问题,如缺乏高质量训练数据和 RL 训练瓶颈,在 Reddit 讨论中用户对其印象深刻,Andrew Ng 的 newsletter 也对其进行了称赞,其训练代码在 GitHub 上可用,模型文件可从 Huggingface 下载。

关键信息:

  • 发布的模型:[DeepCoder-14B-Preview],基于[Deepseek-R1-Distilled-Qwen-14B]。
  • 性能表现:在[LiveCodeBench]通过率 60.6%,超 o1 模型,与 o3-mini 性能相当。
  • 训练方式:在 24K 编码问题数据集上用强化学习微调,改进[verl]框架提高效率 2 倍。
  • 克服问题:创建高质量可验证训练数据的自动化管道,解决 RL 训练中的采样瓶颈。
  • 用户评价:在 Reddit 讨论中用户表示印象深刻,初步测试感觉超越 4o。
  • 他人称赞:Andrew Ng 的 newsletter 称赞其优化减少复杂度,开源推理配方重要。

重要细节:

  • [LiveCodeBench]相关:模型在该基准上表现良好。
  • [verl]改进:开发者对[verl]框架进行修改以提高训练效率。
  • 训练数据:开发自动化管道获取高质量可验证训练数据。
  • 模型文件:可从 Huggingface 下载。
  • 训练代码:在 GitHub 上可获取。
阅读 147
0 条评论