衡量 GitHub Copilot 对生产力的影响

主要观点：代码补全系统在集成开发环境中为开发者提供建议已成为最常用的程序员辅助工具，通过大型语言模型预测用户可能输入的内容。AI 结对编程工具如 GitHub Copilot 对开发者生产力有很大影响，接受 AI 建议能提升多个方面的生产力，感知到的生产力提升反映在开发者活动的客观测量中，接受率比其他度量更能预测感知到的生产力。

关键信息：

离线评估代码补全有缺点，在线评估更能反映实际情况。
定义接受率为开发者接受的补全占显示补全的比例，不同研究中接受率有差异。
测量开发者生产力需考虑多维度，如使用 SPACE 框架，结合自报告数据和自动测量数据。
研究发现接受率与感知到的生产力相关性最高，虽有未解释的方差，但结合其他度量可更全面。
不同经验水平的开发者与 Copilot 的交互不同，经验丰富的开发者写更好代码的可能性较小，但 Copilot 可在其他方面提高生产力。
接受率在不同时间有不同模式，周末和非工作时间接受率较高，工作时间较低。

重要细节：

代码补全系统使用大型语言模型预测用户输入，如 GitHub Copilot 等工具在 IDE 中提供代码片段建议以提高开发者生产力。
离线评估中合成基准与实际使用有差异，在线评估通过跟踪用户接受建议的频率来评估系统效益。
研究中定义了多种与代码补全相关的度量，如显示率、接受率等，并收集了开发者与 GitHub Copilot 的交互数据和生产力调查数据。
调查发现接受率与各生产力维度相关，且在不同经验组和编程语言中均有体现，同时接受率在不同时间有不同模式。
结论认为应关注建议的有用性而非正确性，与 Copilot 的交互类似自然语言对话，且有在线评论的证据支持。