Loubna Ben Allal在QCon London上关于代码的大型语言模型的演讲

大规模语言模型（LLMs）在代码生成中的应用

在QCon London会议上，Loubna Ben Allal讨论了针对代码生成的大规模语言模型（LLMs）。她详细介绍了代码补全模型的生命周期，包括在大规模代码库上进行预训练和微调的过程。她还特别提到了开源模型，这些模型通过Hugging Face等平台得以推广。目前，Hugging Face平台上提供了超过1700个模型，以及诸如StarCoder2和Defog-SQLCoder等工具。尽管通过指令调优等技术可以实现模型的定制化，但这也带来了数据偏见和隐私问题等挑战。

开源模型的发展

近年来，代码补全工具中的LLMs对软件开发实践产生了重大影响。GitHub Copilot于2021年推出，展示了LLMs如何提高开发者的生产力。然而，GitHub Copilot仅提供付费API，开发者无法访问其训练模型或训练数据。因此，开源替代方案如CodeLlama、BigCode和DeepSeek Coder应运而生。BigCode是一个开放的科学合作项目，采用透明公开的方式处理训练数据和模型。BigCode的Slack频道中有1100多名研究人员、工程师、律师和政策制定者，其模型权重以商业友好许可证发布。

模型架构与训练过程

Ben Allal指出，所有模型的核心架构都是Transformer模型，这种架构在理解和生成类似人类的文本方面非常有效。训练过程从一个未训练的模型开始，通过大量代码库进行训练，这些代码通常来自GitHub等公共仓库。Hugging Face托管了诸如The Stack和The Stack V2等大型数据集，分别包含6.4TB和67.5TB的代码。

在预训练之后，模型会进行监督微调，使用更聚焦的数据集来提高其在代码建议中的准确性和相关性。随后，通过人类反馈的强化学习（RLHF）进一步调整模型，使其生成的代码更符合人类偏好。

工具与资源

Ben Allal在演讲中提到了多个有用的工具和论文：

StarCoder2 和 StarChat2：这些新模型能够理解仓库上下文并处理用户指令，可以在线进行实验。
Defog-SQLCoder：在生成SQL查询方面表现优于GPT-4，展示了专用模型的潜力。
LLM-VSCode Extension：允许在IDE中使用替代GitHub Copilot的工具。

模型的定制化与评估

代码补全模型的定制化范围从提示工程到在特定数据集上继续预训练。这使得模型能够适应特定领域或编码风格。Ben Allal还提到了一些相关的论文，如《MagiCoder: Source Code is All You Need》和《OpenCodeInterpreter》。她指出，并非所有看似明显的优化技术都有效，SantaCoder论文中解释了这一点。

最后，模型评估至关重要。目前有多个代码生成的排行榜：

Big Code Models Leaderboard：仅关注开源模型的性能。
EvalPlus leaderboard：也考虑闭源模型。
LiveCodeBench leaderboard：通过频繁创建新测试来防止测试基准的泄漏。

总结

Ben Allal的演讲全面介绍了代码生成LLMs的发展、训练过程、工具资源以及定制化和评估方法。开源模型的发展为开发者提供了更多选择，但也带来了数据隐私和偏见等挑战。通过不断优化和评估，LLMs在代码生成领域的应用前景广阔。