视觉与机器人
多模态信息融合
面向图像、视频、多传感器和跨模态感知的信息融合,包括 Image Fusion、红外可见光、遥感、医学影像、LiDAR/雷达/相机和音视频融合。
1. 多传感器融合 6 篇
TactSpace: Learning a Physics-enriched Shared Latent Space for Tactile Sim-to-Real Transfer
TactSpace: 学习富含物理信息的共享潜在空间以实现触觉模拟到现实的迁移
专题命中 多传感器融合 :对齐触觉与视觉模态,实现模拟到现实迁移。
AI总结 提出多模态表示学习框架TactSpace,通过共享潜在空间对齐异构触觉模态,实现零样本模拟到现实迁移,在力预测和形状重建任务中分别降低误差16.7%和45.8%。
Comments 9 pages, 6 figures, 4 tables, accepted into IROS 2026
C-ARC: Continuous-Adaptive Range Clustering for Non-Repetitive LiDAR Sensors
C-ARC: 面向非重复式LiDAR传感器的连续自适应范围聚类
专题命中 多传感器融合 :非重复式LiDAR点云聚类,属于传感器融合。
AI总结 提出C-ARC框架,通过滑动窗口上的持久双图结构解耦高频点插入与按需聚类检索,并利用指数控制环自适应校准网格分辨率,实现非重复式LiDAR点云的实时聚类。
Comments Submitted to IEEE Robotics and Automation Letters. This work has been submitted to the IEEE for possible publication. 8 pages, 7 figures
Beyond AHI: An Interpretable Causal-Discovery-Guided Framework for Sleep Recovery in Connected Health
超越AHI:一种可解释的因果发现引导的睡眠恢复框架在互联健康中的应用
专题命中 多传感器融合 :从多模态PSG信号推导睡眠恢复评分,融合多种生理信号。
AI总结 提出一种可解释的因果发现引导框架,从多模态PSG中推导层次化睡眠恢复评分(SRS),在两大队列中SRS与感知恢复的关联强度是AHI的2.5倍。
Comments 6 pages, 2 figures, 2 tables. Accepted at the 2nd Workshop on Sensing and Computing for Smart and Connected Health (SCH), co-located with IEEE/ACM CHASE 2026
2. 医学影像融合 6 篇
Bridging Single Distortion Artifacts and Mmultifactorial Clinical Quality: Few-shot Biparametric MRI Quality Assessment via Distortion-trained Prototypical Networks
桥接单一失真伪影与多因素临床质量:基于失真训练的原型网络的少样本双参数MRI质量评估
专题命中 医学影像融合 :双参数MRI质量评估,融合T2和DWI特征。
AI总结 提出一种少样本双参数原型网络,利用失真标签元训练,通过特征融合和域对齐,仅用5个样本即可预测PI-QUAL临床质量评分,解决临床数据稀缺问题。
Conditional Latent Diffusion Model with Fourier-based Motion Modelling for Virtual Population Synthesis
基于傅里叶运动建模的条件潜扩散模型用于虚拟人群合成
专题命中 医学影像融合 :条件扩散模型生成心脏网格序列,属于医学影像生成
AI总结 提出4D F-MeshLDM框架,结合卷积网格VAE、截断傅里叶级数运动参数化和条件扩散先验,实现可控的3D+t心脏网格序列生成,在UK Biobank数据上优于基线方法。
Comments This work has been early accepted by International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) 2026
3. 音视频/视觉语言融合 13 篇
LARE: Low-Attention Region Encoding for Text-Image Retrieval
LARE: 低注意力区域编码用于文本-图像检索
专题命中 音视频/视觉语言融合 :文本-图像检索,低注意力区域编码增强跨模态检索。
AI总结 提出LARE框架,通过并行编码低注意力区域和完整图像,解决拥挤场景下视觉编码器忽视关键细节的问题,在密集场景子集上提升检索性能。
Comments Accepted at the ICML 2026 Workshop on Efficient Multimodal Question Answering (EMM-QA). Code: https://github.com/AbdulmalikDS/LARE ; Dataset: https://huggingface.co/datasets/AbdulmalekDS/Dense-Set
Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
VLA 甚至知道基础知识吗?衡量视觉-语言-动作模型中的常识和世界知识保留
专题命中 音视频/视觉语言融合 :评估视觉-语言-动作模型的知识保留
AI总结 提出 Act2Answer 协议,通过动作回答评估 VLA 模型的知识保留,发现模型在简单概念上表现良好,但在丰富语义类别上存在差距,且 VQA 联合训练有助于知识保留。
Comments Project page: https://tttonyalpha.github.io/act2answer/
From Bounding Boxes to Visual Reasoning: An On-Policy Data Annotation Tool for Vision-Language Models
从边界框到视觉推理:一种用于视觉语言模型的在线策略数据标注工具
专题命中 音视频/视觉语言融合 :提出视觉语言模型标注工具,涉及视觉与语言模态融合。
AI总结 提出ScreenAnnotator,通过统一标注原子模式、在线策略循环与贝叶斯验证器,解决现有工具表达力不足、标注-训练脱节和数据复用性差的问题,实现高效多任务数据生成。
Comments 14 pages, 7 figures
SVHighlights: Towards Extremely Long Sport Video Highlight Detection
SVHighlights: 迈向极长体育视频精彩片段检测
专题命中 音视频/视觉语言融合 :利用大语言模型融合多模态信息检测体育视频精彩片段
AI总结 针对现有方法无法处理超长视频精彩片段检测的问题,提出首个基准SVHighlights(包含320个平均时长2小时的体育视频)以及无训练的分段方法TF-SELECTOR,通过大语言模型融合多模态信息预测片段级显著性分数,在多个指标上超越现有基线。
Comments Accepted to KDD 2026 (Datasets and Benchmarks Track). Project Page: https://leedongkyu2019.github.io/SVHighlights/
4. 红外-可见光融合 1 篇
SCR-Guided Difficulty-Aware Optimization for Infrared Small Target Detection
SCR引导的困难感知优化用于红外小目标检测
专题命中 红外-可见光融合 :红外小目标检测,利用信杂比优化,涉及红外图像处理。
AI总结 提出REEM框架,利用信杂比作为可见性先验,通过可微调制软IoU损失,提升低可见性目标检测性能,无需额外参数或推理开销。
Comments Accepted at CVPR 2026 Workshops (PBVS). Published version: https://openaccess.thecvf.com/content/CVPR2026W/PBVS/html/Sevim_SCR-Guided_Difficulty-Aware_Optimization_for_Infrared_Small_Target_Detection_CVPRW_2026_paper.html
5. Image Fusion 1 篇
6. 遥感融合与全色锐化 2 篇
Biomazon: A Multimodal Dataset for 3D Forest Structure and Biomass Modeling in the Amazon Basin
Biomazon:亚马逊盆地三维森林结构与生物量建模的多模态数据集
专题命中 遥感融合与全色锐化 :多传感器预测因子融合用于森林结构建模
AI总结 针对现有方法未将森林垂直结构作为有序轮廓学习的问题,提出Biomazon多模态基准数据集,结合GEDI RH和AGBD目标与多传感器预测因子,通过共享编码器-解码器框架进行消融研究,为热带森林结构一致RH轮廓预测和结构-生物量建模建立参考基准。
Comments 32 pages, 21 figures, 8 tables
CrossEarth-Gate: Fisher-Guided Adaptive Tuning Engine for Efficient Adaptation of Cross-Domain Remote Sensing Semantic Segmentation
CrossEarth-Gate:基于Fisher引导的自适应调优引擎用于高效跨域遥感语义分割
专题命中 遥感融合与全色锐化 :跨域遥感语义分割的自适应调优
AI总结 提出CrossEarth-Gate,通过Fisher信息引导的自适应模块选择机制,动态激活最关键的跨域模块,在18个跨域基准中16个达到最优性能。
7. 融合架构与评测 1 篇
OneCanvas: 3D Scene Understanding via Panoramic Reprojection
OneCanvas: 通过全景重投影实现3D场景理解
专题命中 融合架构与评测 :多视图补丁特征聚合到全景画布实现3D理解
AI总结 提出OneCanvas方法,将多视图补丁特征聚合到全景画布上,利用深度和相机位姿进行重投影,无需复杂几何编码器或大量训练,在SQA3D等基准上达到最先进精度。
Comments Project page: https://baranowskibrt.github.io/onecanvas/