关于与德文共度一个月的想法 - Answer.AI

主要观点:2024 年 3 月新 AI 公司 Devin 受 Founders Fund 等支持登场,号称能做全自主软件工程师工作,早期演示令人印象深刻,但实际测试后发现其表现不佳,虽有早期成功但后续在多种任务中频繁失败,难以预测哪些任务能成功,自主特性有时反成负担,反映出 AI 工具在现实应用中与社交媒体热度和公司估值关系不大。
关键信息

  • 2024 年 3 月新 AI 公司获 2100 万美元 A 轮融资,团队为 IOI 金牌得主。
  • Devin 可通过 Slack 操作,能访问全计算环境,有网页界面,早期任务如从 Notion 拉数据到 Google Sheets 较成功,但代码较冗长。
  • 后续测试中,在创建新项目、研究任务、分析修改现有代码等方面多以失败告终,如与 LLM 观测平台整合、研究转录总结等任务,还会出现执行不可能任务、产生复杂无用代码等情况。
  • 团队反思认为 Devin 很少能真正发挥作用,难以预测任务结果,自主特性反而导致浪费时间,相比之下更倾向于能让开发者主导开发过程的工具。
    重要细节
  • 早期视频显示 Devin 独立完成 Upwork 赏金任务等,但实际测试中很多任务结果与预期不符。
  • 如在部署多个应用到 Railway 时,Devin 未识别不支持的限制而浪费大量时间。
  • 对不同项目如创建 DaisyUI 主题、分析代码库安全等任务的具体失败情况及反思。
  • 附录中详细列出给 Devin 的各种任务及结果,包括成功、失败、无结论等情况。
阅读 7
0 条评论