2605.11398
2026-05-13
cs.AI
cs.CL
AcuityBench: Evaluating Clinical Acuity Identification and Uncertainty Alignment
Robin Linzmayer, Georgianna Lin, Di Coneybeare, Jason Chu, Trudi Cloyd, Manish Garg, Miles Gordon, Elizabeth Hartofilis, Benjamin Hong, Ashraf Hussain, Eugene Y. Kim, Oluchi Iheagwara King, Ross McCormack, Erica Olsen, John K. Riggins, Mustafa N. Rasheed, Dana L. Sacco, Vinay Saggar, Osman R. Sayan, Amit Shembekar, Janice Shin-Kim, Wendy W. Sun, Bernard P. Chang, David Kessler, Noémie Elhadad
AI总结
本文提出 AcuityBench,一个用于评估语言模型能否从用户医疗描述中正确识别护理紧急程度的基准。该基准整合了五个公开数据集,涵盖用户对话、论坛帖子、临床案例和患者门户信息,并统一采用四级紧急程度框架进行评估。研究发现,不同模型在明确案例和模糊案例中的表现存在显著差异,且任务形式的选择会影响误判类型,突显了临床紧急程度识别作为关键安全能力的重要性。