衡量 2025 年初的人工智能对有经验的开源开发者生产力的影响

发布于 2025-08-03

主要观点：通过随机对照试验研究 2025 年初的 AI 工具对开源开发者生产力的影响，发现使用 AI 工具后开发者完成任务时间延长 19%，与开发者预期和专家预测相反；探讨了可能导致这一结果的因素，如 5 个潜在因素；对比了本研究与 AI 基准测试及轶事的差异，提出了多种调和不同证据的假设；展望未来将继续跟踪 AI 对开发者的影响，并探讨在其他环境中进行类似实验；解答了关于研究的一些疑问。

关键信息：

招募 16 名经验丰富的开源开发者，随机分配是否使用 AI 工具，记录完成任务时间及屏幕记录等。
发现使用 AI 工具后开发者平均耗时增加 19%，与预期和感知不符。
调查 20 个潜在因素，发现 5 个可能导致慢化的因素。
对比本研究与 AI 基准测试及轶事在任务类型、成功定义、AI 类型及观察结果等方面的差异。
提出三种调和不同证据的假设。
未来将继续跟踪 AI 对开发者的影响，欢迎感兴趣者联系。

重要细节：

开发者使用的主要工具为 Cursor Pro 与 Claude 3.5/3.7 Sonnet。
排除了实验中的一些人工制品影响。
不同假设的示意图展示了不同证据与模型真实能力水平之间的差异。
解答了关于开发者使用 AI 工具的原因、研究动机、代表性、开发者技能、AI 工具在软件工程中的作用及标准误差估计等问题。
提及相关研究如[Common Elements of Frontier AI Safety Policies]、[SWE-Bench]、[RE-Bench]、[Measuring AI Ability to Complete Long Tasks]等。

阅读 102