2606.20521
2026-06-19
cs.CV
新提交
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
HumanScale: 以自我为中心的人类视频在具身预训练中可超越真实机器人数据
Juncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou
发表机构
*
PKU(北京大学)
;
NUS(新加坡国立大学)
;
MIT(麻省理工学院)
;
UCSB(加州大学圣塔芭芭拉分校)
;
NVIDIA(英伟达)
AI总结
本文通过系统比较发现,经过精心设计的过滤和标注流程,以自我为中心的人类视频在具身基础模型预训练中不仅可行,而且性能优于遥操作真实机器人数据,验证了“预训练于人类视频+少量机器人数据适配”的可扩展范式。