2606.07682
2026-06-09
cs.SE
cs.AI
新提交
SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?
SWE-Marathon: 智能体能否自主完成超长时程软件工作?
Rishi Desai, Jesse Hu, Joan Cabezas, Neel Harsola, Pratyush Shukla, Roey Ben Chaim, Adnan El Assadi, Omkaar Mukund Kamath, Fenil Faldu, Prannay Hebbar, Jiankai Sun, Yiyuan Li, Pramod Srinivasan, Ishan Gupta, Christopher Settles, Daniel Wang, Derek Chen, Pranav Raja, Albert Liu, Marek Šuppa, Nevasini Sasikumar, Luyang Kong, Erik Quintanilla, Xiangyi Li, Ivan Bercovich, Steven Dillmann
发表机构
*
Abundant
;
Zenity
;
Harvard University(哈佛大学)
;
University of Waterloo(滑铁卢大学)
;
Gujarat Technological University(古吉拉特技术大学)
;
Warping
;
Stanford University(斯坦福大学)
;
UNC-Chapel Hill(北卡罗来纳大学教堂山分校)
;
Independent(独立)
;
Refresh
;
Soleda AI
;
Near AI
;
Georgia Tech(佐治亚理工学院)
;
Comenius University in Bratislava(布拉迪斯拉发Comenius大学)
;
UC San Diego(圣地亚哥大学)
;
BenchFlow
;
UC Santa Barbara(圣巴巴拉大学)
AI总结
提出SWE-Marathon基准,包含20个超长时程任务,平均消耗2720万token,评估智能体在规划、长上下文理解和记忆方面的能力,当前前沿编码智能体解决率低于30%。