2605.08366
2026-05-12
cs.LG
cs.SE
SWE Atlas: Benchmarking Coding Agents Beyond Issue Resolution
Mohit Raghavendra, Soham Dan, Miguel Romero Calvo, Yannis Yiming He, Johannes Baptist Mols, Gautam Anand, Cole McCollum, Edgar Arakelyan, Vijay Bharadwaj, Andrew Park, Jeff Da, MohammadHossein Rezaei, Bing Liu, Brad Kenstler, Yunzhong He
AI总结
本文介绍了SWE Atlas,一个用于评估代码生成智能体的基准测试套件,涵盖代码库问答、测试编写和重构三个专业软件工程流程。该基准不同于以往的SWE基准,聚焦于实践中重要但较少被关注的任务类别,并采用更贴近现实场景的评估方式,综合考量代码功能正确性及软件工程质量。实验表明,尽管顶级模型在某些任务上表现优异,但在处理复杂运行时分析和遵循最佳实践方面仍存在明显不足。