3D 视觉 - arXivDaily 专题

2606.19383 2026-06-19 cs.RO cs.CV 新提交专题 95

3D Scene Graphs: Open Challenges and Future Directions

3D场景图：开放挑战与未来方向

Dennis Rotondi, Francesco Argenziano, Sebastian Koch, Nathan Hughes, Martin Buechner, Johanna Wald, Lukas Rosenberger Schmid, Daniele Nardi, Abhinav Valada, Liam Paull, Federico Tombari, Luca Carlone, Kai O. Arras

专题命中空间理解：综述3D场景图，结合几何与语义。

AI总结本文统一综述3D场景图（3DSG）的构建、应用与评估，分析现有建模选择与开放挑战，旨在推动鲁棒部署。

Comments Invited article for the Annual Review of Control, Robotics, and Autonomous Systems Volume 10

URL PDF HTML

2606.19915 2026-06-19 cs.CV 新提交专题 85

SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision

SpatialSV: 通过任务导向的视觉监督在多模态大语言模型中内化可解释的3D空间感知

Jiayu Tang, Yuchen Zhou, Chao Gou

专题命中空间理解：提出内化3D空间感知的MLLM框架SpatialSV

AI总结提出SpatialSV框架，通过任务导向的视觉监督将MLLM的2D特征提升为显式3D表示（深度图、相机姿态、点云），实现可解释的3D空间感知内化，无需外部工具，并在半监督设置中展现强泛化能力。

Comments Accepted by IJCAI 2026

URL PDF HTML

2606.20515 2026-06-19 cs.CV 新提交专题 80

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

S-Agent：空间工具使用激发空间智能推理

Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

专题命中空间理解：聚焦连续3D世界的空间智能推理

AI总结提出S-Agent空间工具使用智能体范式，通过时空证据积累和层次化工具集，将VLM作为语义规划器，实现连续多视图图像和视频的空间推理，在无训练下提升开源和闭源VLM性能，并基于S-300K轨迹微调得到紧凑空间智能体S-Agent-8B。

Comments Project Page : https://Ropedia.github.io/S-Agent

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 80

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中空间理解：从视频学习3D几何表示，提升空间智能。

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML