Agentica 项目的开源 DeepCoder 模型在编码基准测试中优于 OpenAI 的 O1

发布于 6 月 17 日

主要观点：[Agentica Project]和[Together AI]发布了基于[Deepseek-R1-Distilled-Qwen-14B]的开源 AI 编码模型[DeepCoder-14B-Preview]，在[LiveCodeBench]上通过率达 60.6%，超过 OpenAI 的 o1 模型且与 o3-mini 性能相当，该模型通过强化学习在 24K 编码问题数据集上微调，开发者改进了[verl]分布式 RL 框架提高训练效率 2 倍，在多个编码基准和数学基准上表现出色，目标是实现 LLM 的强化学习训练民主化，分享了训练过程细节和克服的问题，如缺乏高质量训练数据和 RL 训练瓶颈，在 Reddit 讨论中用户对其印象深刻，Andrew Ng 的 newsletter 也对其进行了称赞，其训练代码在 GitHub 上可用，模型文件可从 Huggingface 下载。

关键信息：

发布的模型：[DeepCoder-14B-Preview]，基于[Deepseek-R1-Distilled-Qwen-14B]。
性能表现：在[LiveCodeBench]通过率 60.6%，超 o1 模型，与 o3-mini 性能相当。
训练方式：在 24K 编码问题数据集上用强化学习微调，改进[verl]框架提高效率 2 倍。
克服问题：创建高质量可验证训练数据的自动化管道，解决 RL 训练中的采样瓶颈。
用户评价：在 Reddit 讨论中用户表示印象深刻，初步测试感觉超越 4o。
他人称赞：Andrew Ng 的 newsletter 称赞其优化减少复杂度，开源推理配方重要。

重要细节：

[LiveCodeBench]相关：模型在该基准上表现良好。
[verl]改进：开发者对[verl]框架进行修改以提高训练效率。
训练数据：开发自动化管道获取高质量可验证训练数据。
模型文件：可从 Huggingface 下载。
训练代码：在 GitHub 上可获取。

阅读 262