主要观点:苹果开源了用于编码任务的扩散大语言模型(dLLM)DiffuCoder,它基于[Qwen-2.5-Coder],在多个编码基准测试中优于其他代码特定的大语言模型。dLLM 并行去噪生成文本,速度更快,苹果研究其以探究最佳微调与推理策略,开发了改进性能的耦合 GRPO 技术。大多数大语言模型自回归生成文本,dLLM 类似图像生成模型,可更快生成输出且不受左右顺序限制,苹果研究还创建了自回归性度量指标,发现 dLLM 生成代码时该指标下降,增加采样温度可提高编码基准的“pass@k”分数,进而开发出耦合 GRPO RL 训练提升结果。在 Hacker News 讨论中,用户认为扩散模型更适合编码,苹果的 on-device 策略将使相关模型融入 Xcode 编码体验。
关键信息:开源模型为 DiffuCoder,基于[Qwen-2.5-Coder],超其他代码大语言模型;dLLM 并行去噪生成快,苹果研究其策略;开发耦合 GRPO 技术提升性能;多数大语言模型自回归生成,dLLM 类似图像模型;创建自回归性度量指标,发现其生成代码时指标下降;增加采样温度提高“pass@k”分数;相关代码在 GitHub ,模型文件可从 Huggingface 下载。
重要细节:在[MBPP]编码基准测试中,DiffuCoder 优于[Gemini Diffusion]且与 GPT-4o 有竞争力;有用户认为扩散模型适合编码,苹果 on-device 策略将使相关模型融入 Xcode ;苹果研究得出 RL 微调模型推理能力受基础模型采样能力限制,耦合 GRPO RL 训练提升了结果等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。