Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models
从视频中学习几何表示以实现空间智能多模态大语言模型
发表机构 * University of California, Davis(加州大学戴维斯分校)
专题命中 空间理解 :从视频学习3D几何表示,提升空间智能。
AI总结 提出GeoVR框架,通过从2D视频序列中蒸馏3D几何知识(包括相机姿态、深度图、尺度因子和多尺度3D特征),重塑多模态大语言模型的内部表示以赋予其空间智能,在空间推理基准上达到最先进性能。