2606.19297
2026-06-18
cs.LG
cs.RO
新提交
75%
Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
VLA 甚至知道基础知识吗?衡量视觉-语言-动作模型中的常识和世界知识保留
Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro
发表机构
*
CogAI Lab(CogAI实验室)
;
FusionBrain Lab(FusionBrain实验室)
;
IAI MSU(MSU人工智能研究所)
;
Lomonosov MSU(Lomonosov莫斯科大学)
;
NUST MISIS
;
Applied AI Institute(应用人工智能研究所)
;
HSE University(俄罗斯高等经济大学)
;
Generalizable AI Systems(可泛化人工智能系统)
;
ISP RAS(俄罗斯科学院信息与自动化过程研究所)
;
MIRAI
;
Domain-specific NLP Group(领域特定自然语言处理小组)
专题命中
音视频/视觉语言融合
:评估视觉-语言-动作模型的知识保留
AI总结
提出 Act2Answer 协议,通过动作回答评估 VLA 模型的知识保留,发现模型在简单概念上表现良好,但在丰富语义类别上存在差距,且 VQA 联合训练有助于知识保留。