Lost in Volume: The CT-SpatialVQA Benchmark for Evaluating Semantic-Spatial Understanding of 3D Medical Vision-Language Models
AI总结 该论文提出了一种名为CT-SpatialVQA的新型基准,用于评估3D医学视觉-语言模型在语义-空间理解方面的能力。该基准基于1601份放射科报告和CT影像构建了9077个临床相关的问答对,要求模型具备解剖定位、左右识别、结构对比和三维结构关系推理等能力。实验表明,现有模型在这些任务上的表现较差,平均准确率仅为34%,突显了在临床可信应用中亟需加强三维医学证据整合的重要性。