能自主写代码的国产AI程序员来了!
不是根据提示续写代码的Copilot,而是你给出需求,它真能自个儿完成任务理解:
编写代码:
到Debug全流程的那种。
多轮交互也不在话下。需求有变,同样在对话框里直接告知AI程序员,它就会主动上手修改代码。
如上所示,仅用10分钟,这位AI程序员就能搞定一款奥运赛事日程应用的开发,网页成品长这样:
整个过程涉及网页开发、编写Python文件处理程序以及运行、调试、修改代码等工作,按照传统开发方式,怎么着也得半天才能完成。
这就是阿里云刚刚带来的通义大模型家族最新成果。
我们第一时间和产品背后的开发者聊了聊。
多智能体协同的AI程序员
先来看技术细节。
实际上,这样一位能分钟级完成应用开发的AI程序员,并不是“一个人”,而是多个智能体的集合。
官方介绍,阿里云的这位AI程序员是基于通义大模型构建的多智能体,每个智能体分别负责需求理解、任务拆解、代码编写、测试、问题修复、提交发布等软件开发任务。
这样做的好处是,一方面,AI程序员背后的人类程序员可以针对工作流上不同的关键角色去开发特性。
另一方面,每个智能体能够专注特定任务,大幅提升系统工作效率,同时在互相博弈中更好地完成工作目标。
比如,在编码智能体中,AI程序员首创代码仓库知识图结构,不仅能理解用户需求,还能精准定位代码对应的修改位置并自动给出修改方案,大大简化了传统软件开发的过程。
那么,与同样基于通义大模型技术打造的“阿里1号AI员工”通义灵码相比,AI程序员究竟有何不同?
阿里云资深技术专家、通义灵码产品技术负责人神秀给出的关键词是“交互方式”。
阿里云认为,“人机协同模式的改变”是大模型给软件研发带来的最重要的变化,而变化会随着技术的更新迭代,基于以下三种模式演进:
- LLM as Copilot:不改变软件工程专业分工,AI工具通过与人协同赋能开发提效,解决单点事务性工作效率问题,通义灵码就是基于Copilot模式;
- LLM as Agent:随着AI能力升级,AI Agent作为单一领域职能专家,能够自主使用工具完成预定任务,人主要负责给定上下文,完成知识对齐;
- LLM as Multi-Agent:随着AI持续发展,多智能体协同模式出现,多个Agent可以相互协作完成复杂任务的开发,人只需负责创意、纠偏和确认。阿里云此次推出的AI程序员就处于该阶段。
也就是说,通义灵码主要还是以IDE插件的形式存在,编程的主要完成者还是人类程序员。而AI程序员则不依赖于IDE,交互入口可以是网页,也可以是Devops平台等等,执行任务的主体也变成了AI本身。
“让人类程序员成为超级个体”
值得关注的是,神秀提到,在检验大模型开发能力的SWE-bench上,多智能体架构下AI展现的编程能力正在飞速进步。
在SWE-bench Lite榜单上,SOTA模型已经实现超过30%的问题解决率,相比年初10+%甚至不到10%的成绩进展明显。
我们认为,多智能体在SWE-bench上的问题解决率有望很快突破50%。那么在一些简单、重复的编码场景下,AI程序员这样的产品将是完全可用的。
阿里云AI程序员的产品架构分为三层:第一层是多智能体协同的产品和工程框架;中间层是针对编码场景的数据训练;最底层是通义大模型。目前我们已经构建好了工程基础,随着基础模型能力的提升,预计几个月内就会推出邀测版本。
神秀坦言,在现阶段讨论“AI程序员能否通过阿里面试”这样的话题,有点“预期过高了”:
现在,AI程序员已经能够端到端地完成一个需求,并在这个过程中跟人类进行多轮交互。
它能够使用工具,使用编译器,完成自我调试,但这还只是第一步。
未来发展的关键,在于基础模型的理解力、对全局代码的分析能力,以及工程方面的执行效率、成本性能。搭建起工程框架的意义在于,一旦学术界实现了整体突破,作为产品建设方,可以以最快的速度去将最新的技术转化为工程。
我们判断半年内一个可以真正上手的产品就会出现。
这种乐观并非没有数据佐证。
去年11月,阿里云发布了AI编程助手通义灵码。到现在,通义灵码每天辅助开发者生成代码已经超过3000万次。在阿里云内部,AI代码生成占比达到26%,超过了此前预计的20%的目标。
根据企业客户的反馈,通义灵码大概能实现10%-15%的综合人效提升。
但我们还不是特别满足。开发者日常工作中有70%都是重复的事务性工作,可以用AI来替代,让开发者们可以更聚焦30%的价值创造。
阿里云通义大模型业务负责人徐栋也在阿里云上海AI峰会现场表示,软件应用的开发范式正在发生改变:
通过AI编程助手和AI程序员的加持,每一位人类程序员都将成为超级个体。
那么,你看好AI程序员的发展吗?
— 完 —
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。