2511.02776
2026-05-15
cs.RO
XR-1: Towards Versatile Vision-Language-Action Models via Learning Unified Vision-Motion Representations
Shichao Fan, Kun Wu, Zhengping Che, Xinhua Wang, Di Wu, Fei Liao, Ning Liu, Yixue Zhang, Zhen Zhao, Zhiyuan Xu, Meng Li, Qingjie Liu, Shanghang Zhang, Min Wan, Jian Tang
发表机构
*
Beijing Innovation Center of Humanoid Robotics, Beijing, China(北京人形机器人创新中心,北京,中国)
;
School of Mechanical Engineering and Automation, Beihang University, Beijing, China(北京航空航天大学机械工程及自动化学院,北京,中国)
;
State Key Laboratory of Virtual Reality Technology and Systems, SCSE, Beihang University, Beijing, China(虚拟现实技术与系统国家重点实验室,SCSE,北京航空航天大学,北京,中国)
;
State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University, Beijing, China(多媒体信息处理国家重点实验室,计算机科学学院,北京大学,北京,中国)
AI总结
本文提出 XR-1,一种面向多机器人、多任务和多环境的通用视觉-语言-动作(VLA)模型,旨在解决现有模型在生成精确低级动作和跨异构数据源对齐方面的挑战。XR-1 引入了统一视觉-运动编码(UVMC),通过双分支 VQ-VAE 学习视觉动态与机器人运动的联合离散表示,从而在动作生成和跨模态对齐方面取得显著提升。实验表明,XR-1 在多种真实机器人和任务上表现出优越的性能和良好的泛化能力。