Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics
视觉语言模型能预测未来状态吗?从逆动力学引导世界模型
发表机构 * Institute for Language, Cognition and Computation, University of Edinburgh(语言、认知与计算研究所,爱丁堡大学) ; Language Technology Lab, University of Cambridge(语言技术实验室,剑桥大学) ; NVIDIA(NVIDIA公司) ; University of Groningen(格罗宁根大学)
AI总结 本文发现视觉语言模型(VLM)难以直接进行前向动力学预测(FDP),但逆动力学预测(IDP)更容易学习,并利用IDP通过弱监督学习和推理时验证两种策略引导FDP,在Aurora-Bench上取得与最先进图像编辑模型竞争的性能。