介绍 Fullstack-Bench

  • 主要观点:自主“氛围编码”已出现,AI 代理能在少有人监督下独立写、部署和调试代码,当下自主代理尚不稳定,Convex 致力于成为 AI 编码的良好目标,通过构建 Fullstack-Bench 研究自主 AI 编码成功与失败的原因,发现成功的三个要素为紧的自动反馈循环、用标准程序代码表达一切、强的防错抽象。
  • 关键信息

    • Fullstack-Bench 是用于自主全栈工程的任务集,包括前端应用和后端实现任务,支持多种后端如 Supabase、FastAPI、Convex,通过给代理完整前端实现并让其实现后端来测试编码能力,实验后根据任务特定标准评分。
    • 实验结果显示不同任务和后端的表现不同,Convex 在聊天和待办任务上表现出色,文件任务因代码量大易超时,反馈循环、标准代码和强抽象对编码有重要影响,如类型安全能防止编码出错和提供终止条件等。
  • 重要细节

    • Fullstack-Bench 的任务包括不同难度的前端应用,如简单聊天应用、待办应用和文件应用等,每个任务有起始条件和描述,后端各有特点,如 Supabase 围绕 Postgres ,FastAPI 是 Python 网络服务器,Convex 用 TypeScript 写 API 和数据获取层。
    • 实验中对代理的干预分类为报告错误、提供提示和代理自身行为等,评分根据任务规则检查应用功能,结果显示不同后端在不同任务上的表现及所需时间和代码量等,还详细列出了各任务中提供的提示及时间戳。
    • 结论部分提到 Fullstack-Bench 是有用的基准,将改进 Convex 设计以更好适应 AI 编码,实验可开源重现并欢迎贡献,感谢多人提供反馈,还说明了相关的脚注内容如 FastAPI 项目规则的来源等。
阅读 11
0 条评论