SWE-bench-Live 排行榜

  • SWE-bench-Live:是用于问题解决的实时基准,旨在评估 AI 系统完成实际软件工程任务的能力,每月更新数据集以提供最新任务实例和无污染评估支持。
  • 新闻

    • 2025 年 6 月:更新数据集,包含 1565 个任务实例,覆盖 164 个仓库。
    • 2025 年 5 月:首次发布 SWE-bench-Live,包括 1319 个最新(2024 年后创建)任务实例,每个实例配有实例级 Docker 镜像用于测试执行,覆盖 93 个仓库。
  • 致谢:基于SWE-bench构建,感谢原 SWE-bench 团队的开创性工作。
  • 引用:如在研究中使用 SWE-bench-Live,请引用@article{zhang2025swebenchgoeslive,...} 。
阅读 78
0 条评论