2605.16679
2026-05-20
cs.CL
cs.AI
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
CHI-Bench: 能否让AI代理自动化端到端、长周期、政策丰富的医疗工作流程?
Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao
发表机构
*
Johns Hopkins Medicine(约翰霍普金斯医学中心)
;
Wellstar Health System(Wellstar健康系统)
;
Stanford University(斯坦福大学)
;
CMU(卡内基梅隆大学)
;
UCSD(加州大学圣地亚哥分校)
;
Yale School of Medicine(耶鲁医学院)
;
Salesforce AI Research(Salesforce人工智能研究)
;
University of Washington(华盛顿大学)
;
Northeastern University(东北大学)
;
Brown University(布朗大学)
;
Boston College(波士顿学院)
;
Stony Brook University(史泰森布里克大学)
;
University of Oxford(牛津大学)
;
Arizona State University(亚利桑那州立大学)
;
University of Southern California(南加州大学)
;
Emory University(埃默里大学)
;
MBZUAI
;
Recursive Superintelligence(递归超级智能)
;
University of Illinois at Chicago(伊利诺伊大学芝加哥分校)
AI总结
本文提出CHI-Bench基准,旨在评估AI代理在医疗工作流程中端到端、长周期和政策丰富任务中的自动化能力,揭示当前基准测试中政策密度、多角色协作和多方交互等能力的不足。