KwaiCoder-23BA4-v1:以 1/30 的成本训练全尺寸 SOTA 代码续写大模型

1 月 24 日
阅读 5 分钟
280
KwaiCoder-23BA4-v1 是快手Kwaipilot 团队最新开源的自研代码续写大模型,模型的训练依托于 Kwaipilot 团队提出的一种高效的模型训练方案。通过结合模型剪枝、知识蒸馏、细粒度合并等技术,相比传统方法以1/30的成本完成了23B 宽MoE架构代码续写模型的训练,并在多个代码领域评测集上实现了新的 SOTA。