2605.12361
2026-05-13
cs.CL
cs.AI
cs.IR
MedHopQA: A Disease-Centered Multi-Hop Reasoning Benchmark and Evaluation Framework for LLM-Based Biomedical Question Answering
Rezarta Islamaj, Robert Leaman, Joey Chan, Nicholas Wan, Qiao Jin, Natalie Xie, John Wilbur, Shubo Tian, Lana Yeganova, Po-Ting Lai, Chih-Hsuan Wei, Yifan Yang, Yao Ge, Qingqing Zhu, Zhizheng Wang, Zhiyong Lu
AI总结
MedHopQA 是一个以疾病为中心的多跳推理基准测试集,旨在评估基于大语言模型的生物医学问答系统的真实推理能力。该基准包含1000个由专家精心标注的问题-答案对,每个问题都需要整合两个不同维基百科文章的信息,并以开放式文本形式作答。为提升评估的鲁棒性和公平性,MedHopQA 引入了本体支持的同义词集,并采用分层验证机制,同时通过大规模未标注问题集降低 leaderboard 游戏和数据污染风险,为未来生物医学问答数据集的构建提供了可复用的框架。