2605.27582
2026-05-28
cs.RO
cs.CV
版本更新
Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation
Uni-LaViRA:面向统一具身导航的语言-视觉-机器人动作翻译
Hongyu Ding, Sizhuo Zhang, Ziming Xu, Jinwen Guo, Hongxiu Liu, Xingzhi Cheng, Zixuan Chen, Haifei Qi, Duo Wang, Hao Xu, Jieqi Shi, Yifan Zhang, Jing Huo, Jian Cheng, Yang Gao, Jiebo Luo
发表机构
*
Nanjing University(南京大学)
;
Beihang University(北京航空航天大学)
;
Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
;
BMW (Nanjing) Information Technology Co., Ltd.(宝马(南京)信息技术有限公司)
;
University of Rochester(罗切斯特大学)
AI总结
提出Uni-LaViRA统一智能体架构,通过语言-视觉-机器人动作翻译结构,结合待办列表记忆和二次机会回溯机制,在零训练下实现四类导航任务和四种真实机器人的零样本泛化,性能匹配或超越近期训练式导航基础模型。