主要观点:[Agentica Project]和[Together AI]发布了基于[Deepseek-R1-Distilled-Qwen-14B]的开源 AI 编码模型[DeepCoder-14B-Preview],在[LiveCodeBench]上通过率达 60.6%,超过 OpenAI 的 o1 模型且与 o3-mini 性能相当,该模型通过强化学习在 24K 编码问题数据集上微调,开发者改进了[verl]分布式 RL 框架提高训练效率 2 倍,在多个编码基准和数学基准上表现出色,目标是实现 LLM 的强化学习训练民主化,分享了训练过程细节和克服的问题,如缺乏高质量训练数据和 RL 训练瓶颈,在 Reddit 讨论中用户对其印象深刻,Andrew Ng 的 newsletter 也对其进行了称赞,其训练代码在 GitHub 上可用,模型文件可从 Huggingface 下载。
关键信息:
- 发布的模型:[DeepCoder-14B-Preview],基于[Deepseek-R1-Distilled-Qwen-14B]。
- 性能表现:在[LiveCodeBench]通过率 60.6%,超 o1 模型,与 o3-mini 性能相当。
- 训练方式:在 24K 编码问题数据集上用强化学习微调,改进[verl]框架提高效率 2 倍。
- 克服问题:创建高质量可验证训练数据的自动化管道,解决 RL 训练中的采样瓶颈。
- 用户评价:在 Reddit 讨论中用户表示印象深刻,初步测试感觉超越 4o。
- 他人称赞:Andrew Ng 的 newsletter 称赞其优化减少复杂度,开源推理配方重要。
重要细节:
- [LiveCodeBench]相关:模型在该基准上表现良好。
- [verl]改进:开发者对[verl]框架进行修改以提高训练效率。
- 训练数据:开发自动化管道获取高质量可验证训练数据。
- 模型文件:可从 Huggingface 下载。
- 训练代码:在 GitHub 上可获取。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。