2607.02440
2026-07-03
cs.AI
cs.CL
新提交
EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments
EvoPolicyGym:评估交互环境中的自主策略进化
Zhilin Wang, Han Song, Runzhe Zhan, Jusen Du, Jiacheng Chen, Tianle Li, Qingyu Yin, Yulun Wu, Zhennan Shen, Tong Zhu, Yanshu Li, Guanjie Chen, Derek F. Wong, Yafu Li, Yu Cheng, Yang Yang
发表机构
*
University of Science and Technology of China(中国科学技术大学)
;
The Chinese University of Hong Kong(香港中文大学)
;
University of Macau(澳门大学)
;
Tsinghua University(清华大学)
;
Zhejiang University(浙江大学)
;
Soochow University(苏州大学)
;
Brown University(布朗大学)
;
Shanghai Jiao Tong University(上海交通大学)
AI总结
提出自主策略进化评估框架,通过EvoPolicyGym基准测试代理在固定交互预算下迭代改进策略的能力,GPT-5.5在16个环境中表现最优,并揭示预算分配与反馈转化机制。