衡量 2025 年初的人工智能对有经验的开源开发者生产力的影响

主要观点:通过随机对照试验研究 2025 年初的 AI 工具对开源开发者生产力的影响,发现使用 AI 工具后开发者完成任务时间延长 19%,与开发者预期和专家预测相反;探讨了可能导致这一结果的因素,如 5 个潜在因素;对比了本研究与 AI 基准测试及轶事的差异,提出了多种调和不同证据的假设;展望未来将继续跟踪 AI 对开发者的影响,并探讨在其他环境中进行类似实验;解答了关于研究的一些疑问。

关键信息:

  • 招募 16 名经验丰富的开源开发者,随机分配是否使用 AI 工具,记录完成任务时间及屏幕记录等。
  • 发现使用 AI 工具后开发者平均耗时增加 19%,与预期和感知不符。
  • 调查 20 个潜在因素,发现 5 个可能导致慢化的因素。
  • 对比本研究与 AI 基准测试及轶事在任务类型、成功定义、AI 类型及观察结果等方面的差异。
  • 提出三种调和不同证据的假设。
  • 未来将继续跟踪 AI 对开发者的影响,欢迎感兴趣者联系。

重要细节:

  • 开发者使用的主要工具为 Cursor Pro 与 Claude 3.5/3.7 Sonnet。
  • 排除了实验中的一些人工制品影响。
  • 不同假设的示意图展示了不同证据与模型真实能力水平之间的差异。
  • 解答了关于开发者使用 AI 工具的原因、研究动机、代表性、开发者技能、AI 工具在软件工程中的作用及标准误差估计等问题。
  • 提及相关研究如[Common Elements of Frontier AI Safety Policies]、[SWE-Bench]、[RE-Bench]、[Measuring AI Ability to Complete Long Tasks]等。
阅读 36
0 条评论