2606.19531
2026-06-19
cs.CV
cs.RO
交叉投稿
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
ImageWAM:世界动作模型真的需要视频生成,还是只需要图像编辑?
Yuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin
发表机构
*
Shanghai Jiao Tong University(上海交通大学)
;
Eastern Institute of Technology(东方理工学院)
;
Tencent Robotics X(腾讯机器人X)
;
Tsinghua University(清华大学)
;
Zhongguancun Academy(中关村学院)
AI总结
提出ImageWAM框架,利用预训练图像编辑模型替代视频生成进行机器人动作预测,通过编辑去噪的KV缓存作为世界动作上下文,在多个模拟和真实实验中优于基线,计算量降至1/6,延迟降至1/4。