介绍 Fullstack-Bench - SegmentFault 思否

主要观点：自主“氛围编码”已出现，AI 代理能在少有人监督下独立写、部署和调试代码，当下自主代理尚不稳定，Convex 致力于成为 AI 编码的良好目标，通过构建 Fullstack-Bench 研究自主 AI 编码成功与失败的原因，发现成功的三个要素为紧的自动反馈循环、用标准程序代码表达一切、强的防错抽象。
关键信息：
- Fullstack-Bench 是用于自主全栈工程的任务集，包括前端应用和后端实现任务，支持多种后端如 Supabase、FastAPI、Convex，通过给代理完整前端实现并让其实现后端来测试编码能力，实验后根据任务特定标准评分。
- 实验结果显示不同任务和后端的表现不同，Convex 在聊天和待办任务上表现出色，文件任务因代码量大易超时，反馈循环、标准代码和强抽象对编码有重要影响，如类型安全能防止编码出错和提供终止条件等。
重要细节：
- Fullstack-Bench 的任务包括不同难度的前端应用，如简单聊天应用、待办应用和文件应用等，每个任务有起始条件和描述，后端各有特点，如 Supabase 围绕 Postgres ，FastAPI 是 Python 网络服务器，Convex 用 TypeScript 写 API 和数据获取层。
- 实验中对代理的干预分类为报告错误、提供提示和代理自身行为等，评分根据任务规则检查应用功能，结果显示不同后端在不同任务上的表现及所需时间和代码量等，还详细列出了各任务中提供的提示及时间戳。
- 结论部分提到 Fullstack-Bench 是有用的基准，将改进 Convex 设计以更好适应 AI 编码，实验可开源重现并欢迎贡献，感谢多人提供反馈，还说明了相关的脚注内容如 FastAPI 项目规则的来源等。