2605.17070
2026-05-19
cs.CV
EPIC-Bench: A Perception-Centric Benchmark for Fine-Grained Embodied Visual Grounding in Vision-Language Models
EPIC-Bench: 一种以感知为中心的细粒度具身视觉 grounding 的基准
Haozhe Shan, Xiancong Ren, Han Dong, Haoyuan Shi, Yingji Zhang, Jiayu Hu, Yi Zhang, Yong Dai, Bin Shen, Lizhen Qu, Zenglin Xu, Xiaozhu Ju
发表机构
*
X-Humanoid
;
Fudan University(复旦大学)
;
University of Science and Technology of China(中国科学技术大学)
;
University of Manchester(曼彻斯特大学)
;
Monash University(墨尔本大学)
;
Celonis AI
;
University of New South Wales(新南威尔士大学)
AI总结
本文提出 EPIC-Bench,一种以感知为中心的细粒度具身视觉 grounding 基准,旨在系统评估 VLMs 在现实世界具身环境中的视觉感知能力。该基准包含 6.6k 个精心标注的元组(图像,文本,掩码),涵盖 23 个细粒度任务,涉及具身交互管道的三个核心阶段:目标定位、导航和操作。评估结果显示,尽管先进推理模型表现出潜力,但当前 VLMs 在复杂视觉-文本对齐方面普遍存在困难,特别是在多目标计数、部分-整体关系理解和 affordance 区域检测方面存在瓶颈。