视觉与机器人
3D 视觉
三维重建、NeRF、Gaussian Splatting、点云和空间智能。
SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision
SpatialSV: 通过任务导向的视觉监督在多模态大语言模型中内化可解释的3D空间感知
专题命中 空间理解 :提出内化3D空间感知的MLLM框架SpatialSV
AI总结 提出SpatialSV框架,通过任务导向的视觉监督将MLLM的2D特征提升为显式3D表示(深度图、相机姿态、点云),实现可解释的3D空间感知内化,无需外部工具,并在半监督设置中展现强泛化能力。
Comments Accepted by IJCAI 2026
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
S-Agent:空间工具使用激发空间智能推理
专题命中 空间理解 :聚焦连续3D世界的空间智能推理
AI总结 提出S-Agent空间工具使用智能体范式,通过时空证据积累和层次化工具集,将VLM作为语义规划器,实现连续多视图图像和视频的空间推理,在无训练下提升开源和闭源VLM性能,并基于S-300K轨迹微调得到紧凑空间智能体S-Agent-8B。
Comments Project Page : https://Ropedia.github.io/S-Agent