Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
VLA 甚至知道基础知识吗?衡量视觉-语言-动作模型中的常识和世界知识保留
发表机构 * CogAI Lab(CogAI实验室) ; FusionBrain Lab(FusionBrain实验室) ; IAI MSU(MSU人工智能研究所) ; Lomonosov MSU(Lomonosov莫斯科大学) ; NUST MISIS ; Applied AI Institute(应用人工智能研究所) ; HSE University(俄罗斯高等经济大学) ; Generalizable AI Systems(可泛化人工智能系统) ; ISP RAS(俄罗斯科学院信息与自动化过程研究所) ; MIRAI ; Domain-specific NLP Group(领域特定自然语言处理小组)
专题命中 VLA模型 :提出Act2Answer评估VLA模型知识保留
AI总结 提出 Act2Answer 协议,通过动作回答评估 VLA 模型的知识保留,发现模型在简单概念上表现良好,但在丰富语义类别上存在差距,且 VQA 联合训练有助于知识保留。
Comments Project page: https://tttonyalpha.github.io/act2answer/