研究人员称,AI 尚未准备好取代人类编码员进行调试

主要观点:AI 在软件开发领域部署广泛,虽有人称不久后 AI 代理将取代多数程序员,但实际模型在调试部分仍不足,调试占开发者大量时间。微软研究构建了 debug-gym 工具来测试和改进 AI 模型调试软件的能力。
关键信息

  • debug-gym 可让 AI 模型利用调试工具调试现有代码库,在 GitHub 和博客中有详细介绍。
  • 测试表明使用调试工具的代理大幅优于未使用的,但成功率仍未达较高水平,约 48.4%,原因是模型未充分理解工具使用及训练数据未针对此用例。
  • 这只是努力的开始,下一步是微调专门收集解决漏洞所需信息的模型,还需解决数据稀缺等问题。
    重要细节
  • 文中提到有研究显示 AI 工具虽能创建看似可接受的应用,但代码充满漏洞和安全漏洞且通常无法修复。
  • 强调目前最好结果是为人类开发者节省大量时间,而非取代开发者。
阅读 8
0 条评论