通过大规模预训练实现代码审查活动的自动化

发布于 2024-11-25

主要观点：代码审查是软件开发周期的重要部分，现代代码审查活动需开发者查看、理解甚至运行程序来评估多种因素，目前开发者花费大量时间审查同行代码，需求自动化代码审查过程，本研究聚焦利用预训练技术于代码审查场景，收集多语言开源项目的大规模数据集，提出 CodeReviewer 预训练模型及针对代码审查的四个预训练任务，通过建立高质量基准数据集并进行综合实验，证明该模型在相关任务中优于先前最先进的预训练方法，进一步分析表明预训练任务和多语言数据集有助于理解代码变更和审查。
关键信息：作者包括 Zhiyu Li、Shuai Lu 等多人；发表于 ESEC/FSE 2022；涉及软件工程（cs.SE）和人工智能（cs.AI）领域；提交历史有 v1 和 v2 版本，v2 时间为 2022 年 10 月 11 日。
重要细节：收集了九种最流行编程语言的开源项目代码变更和审查数据集；提出的 CodeReviewer 模型利用四个特定预训练任务；建立了用于代码审查相关任务的高质量基准数据集并进行实验；实验结果显示模型在各任务中表现更优；通过 arXiv-issued DOI 可获取相关内容。

阅读 6