主要观点:2024 年 3 月新 AI 公司 Devin 受 Founders Fund 等支持登场,号称能做全自主软件工程师工作,早期演示令人印象深刻,但实际测试后发现其表现不佳,虽有早期成功但后续在多种任务中频繁失败,难以预测哪些任务能成功,自主特性有时反成负担,反映出 AI 工具在现实应用中与社交媒体热度和公司估值关系不大。
关键信息:
- 2024 年 3 月新 AI 公司获 2100 万美元 A 轮融资,团队为 IOI 金牌得主。
- Devin 可通过 Slack 操作,能访问全计算环境,有网页界面,早期任务如从 Notion 拉数据到 Google Sheets 较成功,但代码较冗长。
- 后续测试中,在创建新项目、研究任务、分析修改现有代码等方面多以失败告终,如与 LLM 观测平台整合、研究转录总结等任务,还会出现执行不可能任务、产生复杂无用代码等情况。
- 团队反思认为 Devin 很少能真正发挥作用,难以预测任务结果,自主特性反而导致浪费时间,相比之下更倾向于能让开发者主导开发过程的工具。
重要细节: - 早期视频显示 Devin 独立完成 Upwork 赏金任务等,但实际测试中很多任务结果与预期不符。
- 如在部署多个应用到 Railway 时,Devin 未识别不支持的限制而浪费大量时间。
- 对不同项目如创建 DaisyUI 主题、分析代码库安全等任务的具体失败情况及反思。
- 附录中详细列出给 Devin 的各种任务及结果,包括成功、失败、无结论等情况。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。