除了CatGPT 之外,还有Github Copilot、DeepTabnine 之类的工具也是基于大语言模型,能实际生成代码的。这些工具宣传拿出来的数据也很厉害啊,比如在 GitHub Copilot 作为市场宣传素材的研究中,Copilot 能够独立完成 46%的代码,对于标准化内容,Copilot 能够以比⼈⼯快 58%的速度⽣成代码。(研究名称:Quantifying GitHub Copilot’s Impact on Developer Productivity and Happiness)
但反面问题也挺多的,我能找到一些研究成果:
- 有程序员朋友表示“每天编程的时间本来就不长,主要时间花在沟通上,其实没有强到能让我提前下班”
- 比较了 Copilot 和传统自动完成(即流⾏的 Intellisense 插件)的用户体验,结果发现参与者在使用 Copilot 时完成任务失败的次数比使用 Intellisense 插件时更多,但任务完成时间没有显着影响。(研究名称:Usability and design studies of AI-assisted programming)
- 发现该插件对任务完成时间或程序正确性没有显著影响;此外,他们发现参与者在他们的实验中编写的⼤多数(60%)提示词(Prompt)都没有⾜够详细地说明 (研究名称:Towards natural language interfaces for programming: A user study comparing programming with and without an extension.)
- ⼀项 2021 年的早期研究中,研究者检查了 GitHub Copilot 中的代码建议有不安全的代码(研究名称:Security risks of AI code generation: A study of GitHub Copilot)
- 基本上准确性、安全性问题,也是各家企业使用这类工具的核心疑虑,比如Salesforce 调研IT 的负责人就发现超过60%的企业IT 负责人都认为有这类的问题(来源:Generative AI research: What business leaders need to know, Salesforce News)
国内各科技公司也都有措施,比如美团、阿里、字节都是禁止使用,腾讯和蚂蚁是不建议使用,华为是高保密项目禁用+其他项目不建议使用。
所以想要请教下大家,实际使用下来效果怎么样?利弊哪个更大?
对于初级开发来说效率提升很大,经验丰富的只是锦上添花,主要还是看公司,公司的代码是有保密要求的话还时尽量别用了,这东西不就是chatGPT套壳,这种语言模型本来就有幻觉,具体根据自己的使用看吧