- SWE-bench-Live:是用于问题解决的实时基准,旨在评估 AI 系统完成实际软件工程任务的能力,每月更新数据集以提供最新任务实例和无污染评估支持。
新闻:
- 2025 年 6 月:更新数据集,包含 1565 个任务实例,覆盖 164 个仓库。
- 2025 年 5 月:首次发布 SWE-bench-Live,包括 1319 个最新(2024 年后创建)任务实例,每个实例配有实例级 Docker 镜像用于测试执行,覆盖 93 个仓库。
- 致谢:基于SWE-bench构建,感谢原 SWE-bench 团队的开创性工作。
- 引用:如在研究中使用 SWE-bench-Live,请引用@article{zhang2025swebenchgoeslive,...} 。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。