视觉与机器人

多模态信息融合

面向图像、视频、多传感器和跨模态感知的信息融合，包括 Image Fusion、红外可见光、遥感、医学影像、LiDAR/雷达/相机和音视频融合。

今日/当前日期收录 5 篇信号源：cs.CV, eess.IV, eess.SP, cs.RO, cs.MM

2603.10791 2026-06-19 eess.IV 版本更新专题 90

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

面向同步视听重建的语义卫星通信

Fangyu Liu, Peiwen Jiang, Wenjin Wang, Xiao Li, Shi Jin

专题命中音视频/视觉语言融合：提出视听语义传输系统，实现跨模态生成与同步重建

AI总结提出自适应多模态语义传输系统，通过双流生成架构和动态关键帧更新机制，在带宽受限的卫星场景下实现高质量同步视听重建，显著降低带宽消耗并提升鲁棒性。

URL PDF HTML

2508.15228 2026-06-19 cs.CV 版本更新专题 85

协作多模态编码用于高质量3D生成

Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu

专题命中音视频/视觉语言融合：协作多模态编码融合RGB、RGBD和点云特征。

AI总结提出TriMM，首个前馈式3D原生生成模型，通过协作多模态编码融合RGB、RGBD和点云特征，结合辅助2D/3D监督和三平面潜在扩散模型，实现高质量3D资产生成。

URL PDF HTML

2508.04424 2026-06-19 cs.CV 版本更新专题 85

组合对象检索：通过组合表达式进行对象级检索

Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan

专题命中音视频/视觉语言融合：组合对象检索结合视觉与文本，属于视觉语言融合

AI总结提出组合对象检索（COR）任务，通过组合参考对象、掩码和检索文本进行对象级检索，并构建COR125K基准和CORE模型，显著优于现有方法。

URL PDF HTML

2509.10416 2026-06-19 cs.RO 版本更新专题 75

TASC：面向关系遥操作的任务感知共享控制

Ze Fu, Pinhao Song, Yutong Hu, Renaud Detry

专题命中音视频/视觉语言融合：利用视觉语言模型推断意图，属于视觉语言融合

AI总结提出TASC框架，通过视觉构建开放词汇交互图推断任务级用户意图，并基于空间约束提供共享控制辅助，提升关系遥操作效率与泛化能力。

Comments Accepted to IROS 2026

URL PDF HTML

2606.05833 2026-06-19 cs.CV cs.AI 版本更新专题 70

从视频中学习几何表示以实现空间智能多模态大语言模型

Haibo Wang, Lifu Huang

专题命中音视频/视觉语言融合：从视频学习3D几何表示，增强多模态大语言模型空间智能

AI总结提出GeoVR框架，通过从2D视频序列中蒸馏3D几何知识（包括相机姿态、深度图、尺度因子和多尺度3D特征），重塑多模态大语言模型的内部表示以赋予其空间智能，在空间推理基准上达到最先进性能。

URL PDF HTML