2605.27141
2026-05-27
cs.AI
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
VitaBench 2.0:评估长期用户交互中的个性化与主动型代理
Yuxin Chen, Yi Zhang, Zhengzhou Cai, Yaorui Shi, Zhiyuan Yao, Chenhang Cui, Jingnan Zheng, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua
发表机构
*
National University of Singapore(新加坡国立大学)
;
Meituan(美团)
;
University of Science and Technology of China(中国科学技术大学)
;
Beijing University of Posts and Telecommunications(北京邮电大学)
;
Zhejiang University(浙江大学)
AI总结
针对现有代理基准忽视用户偏好推断与利用的问题,提出VitaBench 2.0基准,通过时间序列任务和可扩展记忆接口评估代理在长期交互中的个性化与主动性,实验表明最先进模型仍面临挑战。