2606.19297
2026-06-18
cs.LG
cs.RO
交叉投稿
Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
VLA 甚至知道基础知识吗?衡量视觉-语言-动作模型中的常识和世界知识保留
Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro
发表机构
*
CogAI Lab(CogAI实验室)
;
FusionBrain Lab(FusionBrain实验室)
;
IAI MSU(莫斯科大学人工智能研究所)
;
Lomonosov MSU(莫斯科国立罗蒙诺索夫大学)
;
NUST MISIS(国立研究型技术大学MISIS)
;
Applied AI Institute(应用人工智能研究所)
;
HSE University(高等经济大学)
;
Generalizable AI Systems(通用人工智能系统实验室)
;
ISP RAS(俄罗斯科学院系统编程研究所)
;
MIRAI
;
Domain-specific NLP Group(领域特定自然语言处理组)
AI总结
提出 Act2Answer 协议,通过动作回答评估 VLA 模型的知识保留,发现模型在简单概念上表现良好,但在丰富语义类别上存在差距,且 VQA 联合训练有助于知识保留。