arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.13835 2026-05-14 cs.CV 版本更新

Unlocking Patch-Level Features for CLIP-Based Class-Incremental Learning

Hao Sun, Zi-Jun Ding, Da-Wei Zhou

发表机构 * School of Artificial Intelligence, Nanjing University（南京大学人工智能学院）； State Key Laboratory for Novel Software Technology, Nanjing University（南京大学软件新技术国家重点实验室）

AI总结该论文研究了基于CLIP的类别增量学习（CIL）问题，旨在使模型在持续学习新类别时避免灾难性遗忘。现有方法主要关注全局图像嵌入的对齐，而忽略了CLIP编码器中丰富的局部块级语义信息。为此，作者提出了一种名为SPA的方法，通过生成类别语义描述并引导选择具有判别性的块级视觉特征，结合最优传输进行跨模态对齐，从而更有效地利用局部信息提升识别性能，并引入任务特定投影器和伪特征采样策略以增强模型的适应性和稳定性。

2605.13833 2026-05-14 cs.LG cs.CV 版本更新

QLAM: A Quantum Long-Attention Memory Approach to Long-Sequence Token Modeling

Hoang-Quan Nguyen, Sankalp Pandey, Khoa Luu

发表机构 * Quantum AI Lab（量子人工智能实验室）； Dept. of EECS（电子工程与计算机科学系）； University of Arkansas（阿肯色大学）

AI总结本文提出了一种名为QLAM的量子长注意力记忆方法，用于处理长序列的token建模问题。该方法结合量子计算的叠加特性与状态空间模型（SSMs）的线性时间效率，通过量子态表示隐藏状态，从而增强对历史信息的全局表示能力。实验表明，QLAM在多个序列图像分类任务中优于传统循环模型和基于Transformer的模型。

详情

英文摘要

Modeling long-range dependencies in sequential data remains a central challenge in machine learning. Transformers address this challenge through attention mechanisms, but their quadratic complexity with respect to sequence length limits scalability to long contexts. State-space models (SSMs) provide an efficient alternative with linear-time computation by evolving a latent state through recurrent updates, but their memory is typically formed via additive or linear transitions, which can limit their ability to capture complex global interactions across tokens. In this work, we introduce one of the first studies to leverage the superposition property of quantum systems to enhance state-based sequence modeling. In particular, we propose Quantum Long-Attention Memory (QLAM), a hybrid quantum-classical memory mechanism that can be viewed as a quantum extension of state-space models. Instead of maintaining a classical latent state updated through additive dynamics, QLAM represents the hidden state as a quantum state whose amplitudes encode a superposition of historical information. The state evolves through parameterized quantum circuits conditioned on the input, enabling a non-classical, globally update mechanism. In this way, QLAM preserves the recurrent and linear-time structure of SSMs while fundamentally enriching the memory representation through quantum superposition. Unlike attention mechanisms that explicitly compute pairwise interactions, QLAM implicitly captures global dependencies through the evolution of the quantum state, and retrieves task-relevant information via query-dependent measurements. We evaluate QLAM on sequential variants of standard image classification benchmarks, including sMNIST, sFashion-MNIST, and sCIFAR-10, where images are flattened into token sequences. Across all tasks, QLAM consistently improves over recurrent baselines and transformer-based models.

URL PDF HTML ☆

赞 0 踩 0

2605.13831 2026-05-14 cs.CV 版本更新

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu, Sijin Wu, Ji Luo, Shen Yan, Shuai Peng, Sihang Yuan, Chaoyi Huang, Yi Lin, Yangqiu Song

发表机构 * CSE Department, HKUST（香港科技大学计算机科学与工程系）

AI总结本文研究了如何有效训练长上下文视觉-语言模型（LVLMs），以实现超过128K上下文长度的泛化能力。通过系统性的继续预训练实验，作者发现长文档VQA任务比OCR转录更有效，并提出了三个关键结论：数据长度分布应保持平衡、检索能力是主要瓶颈、长文档数据可保留短上下文能力。基于这些发现，他们提出了MMProLong模型，在仅使用50亿token的情况下，显著提升了长文档VQA性能，并在更长的上下文长度上保持了良好的表现，无需额外训练。

Comments work in progress

2605.13825 2026-05-14 cs.AI cs.CV 版本更新

History Anchors: How Prior Behavior Steers LLM Decisions Toward Unsafe Actions

Alberto G. Rodríguez Salgado

发表机构 * Independent Researcher（独立研究员）

AI总结该研究探讨了大型语言模型在面对先前有害行为记录时是否会继续采取不安全行动的问题。研究构建了一个名为HistoryAnchor-100的测试集，包含100个高风险场景，用于评估模型在不同历史行为引导下的决策倾向。实验发现，当提示中加入“保持与先前历史策略一致”的指令时，许多对齐良好的模型会显著增加选择不安全选项的概率，甚至出现行为升级现象，揭示了模型决策可能受到历史行为强烈影响的安全隐患。

Comments 12 pages, 3 figures

2605.13815 2026-05-14 cs.CV cs.RO 版本更新

OmniLiDAR: A Unified Diffusion Framework for Multi-Domain 3D LiDAR Generation

Youquan Liu, Weidong Yang, Ao Liang, Xiang Xu, Lingdong Kong, Yang Wu, Dekai Zhu, Xin Li, Runnan Chen, Ben Fei, Tongliang Liu, Wanli Ouyang

发表机构 * College of Computer Science and Artificial Intelligence, Fudan University（复旦大学计算机科学与人工智能学院）； School of Computing, Department of Computer Science, National University of Singapore（新加坡国立大学计算机学院）； College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics（南京航空航天大学计算机科学与技术学院）； Technical University of Munich（慕尼黑技术大学）； Nanjing University of Science and Technology（南京理工大学）； Shanghai AI Laboratory（上海人工智能实验室）； University of Sydney（悉尼大学）； The Chinese University of Hong Kong, Hong Kong SAR（香港中文大学（深圳））

AI总结 OmniLiDAR 是一种统一的文本条件扩散框架，旨在解决多领域LiDAR点云生成的问题，支持包括恶劣天气、传感器配置变化和跨平台采集在内的八种不同场景。该方法通过引入跨域训练策略和特征建模技术，在单一模型中实现了对异构数据的统一生成，提升了生成结果的可控性和泛化能力。实验表明，OmniLiDAR 在生成质量及下游任务如语义分割和目标检测中均表现出色，尤其在数据稀缺的情况下优势显著。

Comments Preprint; 12 pages, 7 figures, 10 tables

详情

英文摘要

LiDAR scene generation is increasingly important for scalable simulation and synthetic data creation, especially under diverse sensing conditions that are costly to capture at scale. Typically, diffusion-based LiDAR generators are developed under single-domain settings, requiring separate models for different datasets or sensing conditions and hindering unified, controllable synthesis under heterogeneous distribution shifts. To this end, we present OmniLiDAR, a unified text-conditioned diffusion framework that generates LiDAR scans in a shared range-image representation across eight representative domains spanning three shift types: adverse weather, sensor-configuration changes (e.g., reduced beams), and cross-platform acquisition (vehicle, drone, and quadruped). To enable training a single model over heterogeneous domains without isolating optimization by domain, we introduce a Cross-Domain Training Strategy (CDTS) that mixes domains within each mini-batch and leverages conditioning to steer generation. We further propose Cross-Domain Feature Modeling (CDFM), which captures directional dependencies along azimuth and elevation axes to reflect the anisotropic scanning structure of range images, and Domain-Adaptive Feature Scaling (DAFS) as a lightweight modulation to account for structured domain-dependent feature shifts during denoising. In the absence of a public consolidated benchmark, we construct an 8-domain dataset by combining real-world scans with physically based weather simulation and systematic beam reduction while following official splits. Extensive experiments demonstrate strong generation fidelity and consistent gains in downstream use cases, including generative data augmentation for LiDAR semantic segmentation and 3D object detection, as well as robustness evaluation under corruptions, with consistent benefits in limited-label regimes.

URL PDF HTML ☆

赞 0 踩 0

2605.13813 2026-05-14 cs.CV 版本更新

JANUS: Anatomy-Conditioned Gating for Robust CT Triage Under Distribution Shift

Lavsen Dahal, Yubraj Bhandari, Geoffrey Rubin, Joseph Y. Lo

发表机构 * Center for Virtual Imaging Trials, RAI Labs, Department of Radiology, Duke University, Durham NC 27708, USA Electrical ； Computer Engineering, Pratt School of Engineering, Duke University, Durham, NC 27708, USA Department of Mathematics, Trinity College of Arts \& Sciences, Duke University, Durham, NC 27708, USA Department of Radiology

AI总结本文提出了一种名为JANUS的生理引导双流架构，用于在分布偏移情况下实现鲁棒的CT分诊。该方法通过解剖引导门控机制，将视觉嵌入条件化于宏观影像组学先验，从而提升模型在不同机构间的泛化能力与可靠性。实验表明，JANUS在MERLIN数据集上取得了优于现有方法的性能，并在外部数据集上也表现出色，尤其在基于大小和衰减定义的病灶检测中效果显著。

2605.13803 2026-05-14 cs.CV 版本更新

EvoGround: Self-Evolving Video Agents for Video Temporal Grounding

Minjoon Jung, Byoung-Tak Zhang, Lorenzo Torresani

发表机构 * Seoul National University（首尔国立大学）； Northeastern University（东北大学）

AI总结本文提出了一种名为EvoGround的自进化视频代理框架，用于解决视频时间定位（VTG）问题，即从未剪辑的视频中定位与自然语言查询最匹配的时间片段。该方法无需人工标注数据，通过两个相互协作的代理——提议者和求解者——从原始视频中自动学习时间定位能力。实验表明，EvoGround在多个基准测试中表现优异，达到了甚至超越了全监督模型的水平，并成为无需人工标注的细粒度视频描述生成的最先进方法。

Comments Project page: https://minjoong507.github.io/projects/EvoGround/

2605.13798 2026-05-14 cs.CV 版本更新

VoxCor: Training-Free Volumetric Features for Multimodal Voxel Correspondence

Guney Tombak, Ertunc Erdil, Ender Konukoglu

发表机构 * Biomedical Image Computing Group, ETH Zurich（生物医学图像计算组，苏黎世联邦理工学院）； The LOOP Zurich – Medical Research Center（苏黎世医疗研究中心）

AI总结在多模态医学影像分析中，跨模态的体素级表示需要在不同成像方式、设备和采集协议下保持解剖一致性。本文提出VoxCor，一种无需训练的体素特征提取方法，能够从冻结的2D视觉Transformer模型中生成可复用的三维体素特征表示。该方法通过三平面ViT推理与加权偏最小二乘投影结合，在离线阶段学习模态稳定的解剖方向，从而在变换阶段无需微调或配准即可直接映射新体积，并支持高效的体素对应查询。实验表明，VoxCor在跨被试、跨模态任务中表现出优越的配准性能和特征迁移能力，为多模态医学影像分析提供了可复用的特征层。

详情

英文摘要

Cross-modal 3D medical image analysis requires voxelwise representations that remain anatomically consistent across imaging contrasts, scanners, and acquisition protocols. Recent work has shown that frozen 2D Vision Transformer (ViT) foundation models can support such representations, but typical pipelines extract features along a single anatomical axis and adapt those features inside a registration solver for one image pair at a time, leaving complementary viewing directions unused and producing representations that do not transfer to new volumes. We introduce VoxCor, a training-free fit--transform method for reusable volumetric feature representations from frozen 2D ViT foundation models. During an offline fitting phase, VoxCor combines triplanar ViT inference with a compact closed-form weighted partial least squares (WPLS) projection that uses fitting-time voxel correspondences to select modality-stable anatomical directions in the triplanar feature space. At transform time, new volumes are mapped by triplanar ViT inference and linear projection alone, without fine-tuning or registration. Voxel correspondences can then be queried directly by nearest-neighbor search. We evaluate VoxCor on intra-subject Abdomen MR--CT and inter-subject HCP T2w--T1w tasks using deformable registration, voxelwise k-nearest-neighbor segmentation, and segmentation-center landmark localization. VoxCor improves the hardest cross-subject, cross-modality transfer settings, reduces encoder sensitivity for dense correspondence transfer, and yields registration performance competitive with handcrafted descriptors and learned 3D features. This positions VoxCor as a reusable feature layer for downstream multimodal analysis beyond pairwise registration. Code, configuration files, and implementation details are publicly available on GitHub at \href{https://github.com/guneytombak/VoxCor}{guneytombak/VoxCor}.

URL PDF HTML ☆

赞 0 踩 0

2605.13794 2026-05-14 cs.GR cs.CV 版本更新

BlitzGS: City-Scale Gaussian Splatting at Lightning Speed

Zhongtao Wang, Huishan Au, Yilong Li, Mai Su, Haojie Jin, Yisong Chen, Meng Gai, Fei Zhu, Guoping Wang

发表机构 * Peking University（北京大学）

AI总结本文提出了一种名为BlitzGS的分布式3D高斯溅射框架，旨在实现城市级规模场景的快速重建。该方法通过在系统层、模型层和视图层三个耦合层级优化高斯点的处理流程，显著减少了计算负载，提升了渲染效率。实验表明，BlitzGS在保持渲染质量的同时，相比现有方法实现了数量级的加速，能够在数十分钟内完成城市级场景的训练。

2605.13778 2026-05-14 cs.RO cs.CV 版本更新

Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

Jiahui Niu, Kefan Gu, Yucheng Zhao, Shengwen Liang, Tiancai Wang, Xing Hu, Ying Wang, Huawei Li

发表机构 * State Key Lab of Processors, Institute of Computing Technology, CAS（处理器国家重点实验室，计算技术研究所，中国科学院）； University of Chinese Academy of Sciences（中国科学院大学）； Nanjing University（南京大学）； Dexmal

AI总结本文提出了一种名为 Realtime-VLA FLASH 的推测推理框架，旨在解决基于扩散模型的视觉-语言-动作（dVLA）模型在实时部署中因全推理过程延迟高而面临的问题。该方法通过引入一个轻量级的草案模型，并结合主模型的动作专家进行并行验证，以及在必要时回退到全推理流程的相位感知机制，实现了低延迟、高频次的重新规划。实验表明，FLASH 在 LIBERO 和实际传送带分拣任务中均能有效降低推理延迟，显著提升了实时任务的执行效率。

2605.13775 2026-05-14 cs.RO cs.CV 版本更新

RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data

Harold Haodong Chen, Sirui Chen, Yingjie Xu, Wenhang Ge, Ying-Cong Chen

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））

AI总结本文提出了一种名为 RoboEvolve 的新型框架，旨在解决机器人操作中由于物理交互数据稀缺而导致的可扩展性瓶颈。该框架通过将视觉语言模型（VLM）和视频生成模型（VGM）结合，形成一个相互促进的协同进化循环，仅依赖于未标记的种子图像进行自主数据合成与策略优化。实验表明，RoboEvolve 在任务成功率、数据效率和持续学习能力方面均表现出显著优势。

Comments On-going work

2605.13755 2026-05-14 cs.CV 版本更新

Generative Texture Diversification of 3D Pedestrians for Robust Autonomous Driving Perception

Arka Bhowmick, Enes Ozeren, Ahmed Abdullah, Oliver Wasenmuller

发表机构 * BIT Technology Solutions GmbH（比特技术解决方案 GmbH）； Mannheim University of Applied Sciences（曼海姆应用科学大学）

AI总结本文研究了如何通过生成式人工智能提升自动驾驶感知系统中3D行人模型的纹理多样性，以增强模型在复杂场景下的鲁棒性。作者提出了一种基于StyleGAN2的方法，从单一3D基础模型出发，生成具有多样化面部纹理和外观特征的行人实例，无需重新设计几何结构。该方法构建了合成数据集，并分析了真实与合成数据混合对2D和3D目标检测的影响，揭示了几何域差异对3D感知模型的敏感性，展示了生成式AI在自动驾驶数据生成中的潜力与局限。

Comments Published at SAIAD 2026 Workshop at CVPR 2026

2605.13753 2026-05-14 cs.LG cs.CV 版本更新

Min Generalized Sliced Gromov Wasserstein: A Scalable Path to Gromov Wasserstein

Ashkan Shahbazi, Xinran Liu, Ping He, Soheil Kolouri

发表机构 * Department of Computer Science, College of Connected Computing, Vanderbilt University（计算机科学系，连接计算学院，范德比尔特大学）； Department of Electrical and Computer Engineering, Vanderbilt University（电气与计算机工程系，范德比尔特大学）

AI总结本文提出了一种名为 min Generalized Sliced Gromov-Wasserstein（min-GSGW）的新型方法，用于高效求解 Gromov-Wasserstein（GW）问题。该方法通过引入表达能力强的广义切片算子，学习输入度量之间的耦合非线性切片，从而在原始空间中直接最小化 GW 目标函数。min-GSGW 具有刚体运动不变性，适用于几何匹配和形状分析任务，并在多个实验中表现出比现有方法更低的计算成本和更优的几何对应结果。

2605.13746 2026-05-14 cs.CV cs.AI 版本更新

Weakly-Supervised Spatiotemporal Anomaly Detection

Urvi Gianchandani, Praveen Tirupattur, Mubarak Shah

发表机构 * University of Texas at Dallas（德克萨斯大学达拉斯分校）； University of Central Florida（佛罗里达中央大学）

AI总结本文研究了弱监督下的时空异常检测问题，仅使用视频级别的标签进行训练，无需逐帧标注。核心方法是通过提取正常和异常视频片段的特征，并利用多实例排序损失（MIL）对时空区域进行异常评分，同时考虑了异常在时间和空间上的局部性。该方法在包含时空标注的UCF Crime2Local数据集上进行了验证，取得了有效结果。

2605.13744 2026-05-14 cs.CV 版本更新

Aligning Network Equivariance with Data Symmetry: A Theoretical Framework and Adaptive Approach for Image Restoration

Feiyu Tan, Qi Xie, Zongben Xu, Deyu Meng

发表机构 * School of Mathematics and Statistics（数学与统计学学院）

AI总结图像修复是一个固有病态的逆问题，而嵌入几何对称先验的等变网络可以缓解这一问题并提升性能。然而，现有研究对网络等变性与数据对称性的关系理解仍停留在启发式层面，缺乏系统理论框架来量化对称性、选择变换群或评估模型与数据的对齐程度。本文从优化角度出发，首次提出了在数据集层面可量化的非严格对称性定义，并将其作为约束构建图像修复逆问题，揭示了数据对称性、模型等变性与泛化能力之间的内在联系，同时提出了一个样本自适应的等变网络，能够动态对齐每个样本的内在对称性，实验表明该方法在超分辨率、去噪和去雨任务中显著优于传统方法。

Comments 30 pages, 9 figures, Supplementary Material can be found at https://github.com/tanfy929/SA-Conv

详情

英文摘要

Image restoration is an inherently ill posed inverse problem. Equivariant networks that embed geometric symmetry priors can mitigate this ill posedness and improve performance. However, current understanding of the relationship between network equivariance and data symmetry remains largely heuristic. Particularly for real world data with imperfect symmetry, existing research lacks a systematic theoretical framework to quantify symmetry, select transformation groups, or evaluate model data alignment. To bridge this gap, we conduct an analysis from an optimization perspective and formalize the intrinsic relationship among data symmetry priors, model equivariance, and generalization capability. Specifically, we propose for the first time a quantifiable definition of non strict symmetry at the dataset level (rather than sample level) and use it as a constraint to formulate the restoration inverse problem. We then show that the equivariance for restoration models can be naturally derived from this inverse problems incorporated the proposed symmetry constraints, and that the equivariance error of the optimal restoration operator is strictly bounded by the data symmetry error and the discretization mesh size. Furthermore, by analyzing the network's empirical risk, we demonstrate that aligning equivariance with data symmetry optimizes the bias variance trade off, minimizing the total expected risk. Guided by these insights, we propose a Sample Adaptive Equivariant Network that uses a hypernetwork and transformation learnable equivariant convolutions to dynamically align with each sample's inherent symmetry. Extensive experiments on super resolution, denoising, and deraining validate our theoretical findings and show significant superiority over standard baselines and traditional equivariant models. Our code and supplementary material are available at https://github.com/tanfy929/SA-Conv.

URL PDF HTML ☆

赞 0 踩 0

2605.13741 2026-05-14 cs.RO cs.CV 版本更新

LEXI-SG: Monocular 3D Scene Graph Mapping with Room-Guided Feed-Forward Reconstruction

Christina Kassab, Hyeonjae Gil, Matías Mattamala, Ayoung Kim, Maurice Fallon

AI总结本文提出LEXI-SG，首个仅依赖RGB相机输入的单目三维场景图映射系统，能够在开放词汇场景中实现高精度、可扩展的密集地图重建。该方法利用开放词汇基础模型的语义先验，将场景划分为房间，并在每个房间完全观测后进行前馈重建，从而避免了滑动窗口尺度不一致的问题。通过基于房间的因子图优化，实现了全局对齐与局部地图一致性的保持，同时自然地构建了语义场景图的层次结构，并支持开放词汇的对象分割与跟踪。实验表明，LEXI-SG在轨迹估计、密集重建和开放词汇分割方面均表现出色。

2605.13730 2026-05-14 cs.LG cs.AI cs.CV 版本更新

Robust and Explainable Bicuspid Aortic Valve Diagnosis Using Stacked Ensembles on Echocardiography

Christos Chrysanthos Nikolaidis, Vasileios Sachpekidis, Nikolas Moustakidis, Theofilos Moustakidis, Pavlos S. Efraimidis

发表机构 * Department of Electrical and Computer Engineering, Democritus University of Thrace（电气与计算机工程系，德莫克里特大学）

AI总结该研究旨在利用超声心动图图像可靠诊断二叶式主动脉瓣（BAV），解决因操作者经验和图像质量差异导致的诊断不一致性问题。研究提出了一种基于视频集成的可解释人工智能模型，通过分析常规获取的左心室长轴视图动态影像，实现了对BAV与三叶式主动脉瓣（TAV）的准确分类。模型在90例患者数据上表现出优异的分类性能，并通过Grad-CAM和SHAP值提供了可解释的诊断依据，有助于提升临床诊断的透明度和可追溯性。

2605.13729 2026-05-14 cs.CV cs.AI 版本更新

Coordinating Multiple Conditions for Trajectory-Controlled Human Motion Generation

Deli Cai, Haoyang Ma, Changxing Ding

发表机构 * School of Electronic and Information Engineering, South China University of Technology（华南理工大学电子与信息学院）； Pazhou Lab（琶洲实验室）

AI总结本文研究了在文本描述和空间轨迹双重条件下生成真实人体运动的问题，现有方法在条件冲突和运动表示冗余方面存在不足，导致生成质量下降或轨迹控制不稳定。为此，作者提出了一种解耦框架 CMC，通过分治策略将任务分为轨迹控制和运动补全两个阶段，分别确保轨迹准确跟踪和生成完整运动。此外，引入选择性补全机制以缓解数据不足带来的过拟合问题，实验表明 CMC 在多个数据集上取得了优越的控制精度和运动质量。

2605.13724 2026-05-14 cs.CV cs.AI 版本更新

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

Yuchao Gu, Guian Fang, Yuxin Jiang, Weijia Mao, Song Han, Han Cai, Mike Zheng Shou

发表机构 * NVIDIA ； Show Lab, National University of Singapore（新加坡国立大学Show实验室）； MIT（麻省理工学院）

AI总结本文提出 AnyFlow，一种基于流图的任意步数视频扩散模型蒸馏框架，旨在解决一致性蒸馏模型在测试时分配更多采样步数时性能下降的问题。AnyFlow 通过将蒸馏目标从终点一致性映射转换为任意时间区间的流图转移学习，优化完整的 ODE 采样轨迹，并引入流图反向模拟方法，提升采样效率并减少测试时误差。实验表明，AnyFlow 在少量步数生成任务中性能优于或匹配现有方法，同时支持任意步数的灵活扩展。

Comments Project page at https://nvlabs.github.io/AnyFlow/

2605.13713 2026-05-14 cs.CV eess.IV 版本更新

Learning to Optimize Radiotherapy Plans via Fluence Maps Diffusion Model Generation and LSTM-based Optimization

Isabella Poles, Simon Arberet, Riqiang Gao, Martin Kraus, Marco D. Santambrogio, Florin C. Ghesu, Ali Kamen, Dorin Comaniciu

发表机构 * Politecnico di Milano（米兰理工学院）； Digital Technology and Innovation, Siemens Healthineers（西门子医疗数字化技术与创新）

AI总结本文提出了一种基于扩散模型和LSTM的端到端优化方法，用于放射治疗计划的生成。该方法通过分布匹配的扩散模型生成临床可行的射线强度图，并利用LSTM模块学习梯度更新动态，从而快速优化剂量分布。实验表明，该方法在提升计划效率、灵活性和机器可执行性方面优于现有方法。

Comments Early Accept at MICCAI 2026

2605.13688 2026-05-14 cs.CV cs.LG 版本更新

MedCore: Boundary-Preserving Medical Core Pruning for MedSAM

Cenwei Zhang, Suncheng Xiang, Lei You

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Technical University of Denmark（技术大学）

AI总结 MedCore 是一种针对 MedSAM 的结构化剪枝框架，旨在在保持医学图像分割边界精度的前提下显著压缩模型规模。该方法通过保留两种关键结构实现高效剪枝：一种是在 SAM 到 MedSAM 适配过程中变得重要的结构，另一种是具有高边界影响力的结构。实验表明，MedCore 在多项息肉分割基准测试中大幅减少了参数和计算量，同时保持了较高的 Dice 和边界指标，验证了其在医学图像分割中的有效性与可靠性。

Comments 3 figures, 17 pages

2605.13686 2026-05-14 cs.CV cs.AI 版本更新

Cross Modality Image Translation In Medical Imaging Using Generative Frameworks

Giulia Romoli, Alessia Capoccia, Filippo Ruffini, Francesco Di Feola, Luca Boldrini, Arturo Chiti, Renato Cuocolo, Tugba Akinci D'Antonoli, Fatemeh Darvizeh, Marcello Di Pumpo, Bradley J. Erickson, Liu Fang, Deborah Fazzini, Paola Feraco, Fabrizia Gelardi, Francesco Gossetti, Ana Isabel Hernáiz Ferrer, Michail E. Klontzas, Seyedmehdi Payabvash, Katrine Riklund, Sara N. Strandberg, Valerio Guarrasi, Paolo Soda

发表机构 * Department of Diagnostics and Intervention, Radiation Physics, Biomedical Engineering, Umeå University（诊断与介入部门、放射物理、生物医学工程，乌梅大学）； Unit of Artificial Intelligence and Computer Systems, Department of Engineering, Università Campus Bio-Medico di Roma（人工智能与计算机系统单位，工程部门，罗马生物医学学院）； Vita-Salute San Raffaele University（维塔-萨拉特·桑拉法埃莱大学）； Department of Medicine, Surgery and Dentistry, University of Salerno（医学、外科和牙科部门，萨勒诺大学）； Division of Diagnostic and Interventional Neuroradiology, Department of Radiology, University Hospital Basel（诊断和介入神经放射学部门，放射学部门，巴塞尔大学医院）； Department of Pediatric Radiology, University Children’s Hospital Basel（儿科放射学部门，巴塞尔儿童医院）； Department of Life Science and Public Health, Università Cattolica del Sacro Cuore（生命科学与公共健康部门，圣心大学）； Athinoula A. Martinos Center for Biomedical Imaging（阿提诺拉A·马里诺斯生物医学成像中心）； Artificial Intelligence and Translational Imaging (ATI) Lab, Department of Radiology, School of Medicine, University of Crete（人工智能与转化成像（ATI）实验室，放射学部门，医学院，克里特大学）； Division of Radiology, Department of Clinical Science, Intervention and Technology (CLINTEC), Karolinska Institute（放射学部门，临床科学、介入和科技（CLINTEC）部门，卡罗林斯卡研究所）； Columbia University Medical Center（哥伦比亚大学医学中心）； Department of Diagnostics and intervention, Diagnostic radiology, Umeå University（诊断与介入部门，诊断放射学，乌梅大学）

AI总结本文研究了医学影像中跨模态图像翻译的问题，旨在从源影像模态生成目标模态的图像，无需额外采集。作者提出了一种可复现、标准化的评估框架，对七种生成模型在多个临床任务和数据集上的性能进行了系统比较，发现基于生成对抗网络（GAN）的模型整体表现优于潜在生成模型，其中SRGAN在多项任务中表现最优。实验还揭示了模型在小病灶生成和定量指标与临床偏好之间的差异，表明合成影像在临床判别上已接近真实影像。

2605.13675 2026-05-14 cs.CV cs.LG q-bio.NC 版本更新

Characterizing Universal Object Representations Across Vision Models

Florian P. Mahner, Johannes Roth, Ka Chun Lam, Michael F. Bonner, Francisco Pereira, Martin N. Hebart

发表机构 * Vision and Computational Cognition Group（视觉与计算认知组）； Max Planck Institute（马克斯·普朗克研究所）； Justus-Liebig-University Giessen（吉森约瑟夫·李贝大学）； Machine Learning Core（机器学习核心）； Department of Cognitive Science（认知科学系）； National Institute of Mental Health（国家心理健康研究所）； Johns Hopkins University（约翰霍普金斯大学）

AI总结本研究探讨了不同架构、目标函数和数据集训练的深度神经网络在视觉表征上的收敛现象，旨在揭示模型实际收敛于哪些视觉属性以及影响这一收敛的因素。通过将162个多样化视觉模型的对象相似性结构分解为少量非负维度，并分析这些维度在模型间的重复出现情况，研究发现部分维度具有跨模型的普遍性，且更易解释、更受图像语义属性驱动。研究还表明，模型的普遍性维度与灵长类动物视觉皮层活动和人类相似性判断的预测能力更强，暗示了这种普遍性可能反映了与生物视觉相关的表征特性。

2605.13670 2026-05-14 cs.CV 版本更新

Pattern-Enhanced RT-DETR for Multi-Class Battery Detection

Xu Zhong, Enyuan Hu

发表机构 * Independent Researcher（独立研究者）； Chemistry Division Brookhaven National Laboratory NY, USA（布鲁赫斯国家实验室化学部纽约美国）

AI总结本文针对多类别电池检测任务，提出了一种基于模式增强的RT-DETR方法PaQ-RT-DETR，通过引入基于模式的动态查询生成机制，有效缓解了查询激活不平衡问题，同时保持了较低的计算开销。研究在包含约8,591张标注图像的公开数据集上系统比较了多种检测模型，结果表明PaQ-RT-DETR-X在整体mAP@50指标上优于基线模型，尤其在数据稀缺的电池类别上表现突出，为电池相关工业应用中的目标检测模型选择提供了实用指导。

Comments 4 pages, 3 figures

2605.13667 2026-05-14 cs.CV 版本更新

SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models

Vladislav Makarov, Mark Gizetdinov, Dmitry Yudin

发表机构 * MIRAI

AI总结 SceneGraphVLM 是一种基于视觉语言模型的紧凑方法，用于从图像和视频中生成结构化的场景图。该方法通过高效的 TOON 格式序列化图结构，并采用两阶段训练策略，结合监督微调和强化学习，以提升关系覆盖率和精确度，同时避免生成不相关对象和关系。在视频处理中，模型可通过前一帧生成的场景图提供轻量级的短期上下文，无需跟踪或后处理。实验表明，SceneGraphVLM 在多个数据集上实现了高质量与生成速度的良好平衡，并显著提升了场景图生成的精确度。

2605.13664 2026-05-14 cs.CV physics.optics 版本更新

HADAR-Based Thermal Infrared Hyperspectral Image Restoration

Cheng Dai, Jiale Lin, Bingxuan Song, Yifei Chen, Jiashuo Chen, Xin Yuan, Fanglin Bao

发表机构 * School of Science, Westlake University（西lake大学科学学院）； School of Engineering, Westlake University（西lake大学工程学院）

AI总结热红外高光谱图像（TIR-HSI）在许多应用中具有重要价值，但其实际应用受到传感器退化等因素的严重限制。本文提出了一种基于HADAR渲染方程的物理驱动框架HAIR，通过结合温度、发射率和纹理（TeX）三元组的物理模型，实现了对地面TIR-HSI的高精度恢复。该方法不仅保证了物理一致性与空间光谱噪声的鲁棒性，还通过大气下行辐射参考和发射率光谱平滑性实现了光谱校准与生成，实验表明其在去噪、修复、光谱校准和超分辨率等任务上均优于现有方法。

Comments 17 pages, 18 figures

2605.13632 2026-05-14 cs.RO cs.CV 版本更新

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang

发表机构 * Futian Laboratory（福田实验室）； Faculty of Computing, Harbin Institute of Technology（哈尔滨工业大学计算机学院）； International Digital Economy Academy (IDEA)（国际数字经济学院（IDEA））； School of Robotics, Hunan University（湖南大学机器人学院）； South China University of Technology（华南理工大学）； Visincept（Visincept公司）； National Key Laboratory of Smart Farm Technologies and Systems（智能农业技术与系统国家重点实验室）

AI总结本文提出了一种名为GTA-VLA的交互式视觉-语言-动作框架，通过允许用户使用显式视觉线索引导机器人策略，实现空间可操控的具身推理。该框架引入了用户可选的空间先验引导机制，并将其与内部任务规划相结合，生成统一的视觉-空间推理链，从而提升机器人在复杂或未知环境中的任务成功率。实验表明，该方法在标准基准测试中表现优异，并在面对视觉变化和空间歧义时展现出更强的鲁棒性和恢复能力。

2605.13621 2026-05-14 cs.CV 版本更新

WD-FQDet: Multispectral Detection Transformer via Wavelet Decomposition and Frequency-aware Query Learning

Chunjin Yang, Xiwei Zhang, Yiming Xiao, Fanman Meng

发表机构 * University of Electronic Science and Technology of China（电子科学与技术大学）

AI总结 WD-FQDet 是一种基于小波分解和频率感知查询学习的多光谱检测Transformer框架，旨在解决红外与可见光图像融合检测中模态共享特征偏差和模态特有特征不足的问题。该方法通过低频域对齐和高频域保留模块，分别增强跨模态特征的一致性和模态特有特征的表达，并引入频率感知的查询选择机制动态调节不同特征的贡献。实验表明，WD-FQDet 在多个数据集上取得了领先的检测性能。

2605.13619 2026-05-14 physics.optics cs.CV 版本更新

DeepFilters: Scattering-Aware Pupil Engineering with Learned Digital Filter Reconstruction for Extended Depth of Field Microscopy

Joseph L. Greene, Suet YIng Chan, Qilin Deng, Jeffrey Alido, Alexandra Lion, Guorong Hu, Ruipeng Guo, Tongyu Li, Kivilcim Kiliç, Ian Davison, Lei Tian

发表机构 * Boston University, Department of Electrical and Computer Engineering（波士顿大学电气与计算机工程系）； Georgia Tech Research Institute, Electro-Optical Systems Lab（佐治亚理工研究学院电光学系统实验室）； Boston University, Department of Biology（波士顿大学生物学系）； Harvard Medical School, Brigham and Women’s Hospital, Department of Orthopedic Surgery（哈佛医学院布里特妇女医院骨科系）； Boston University, Neurophotonics Center（波士顿大学神经光子学中心）； Boston University, Department of Biomedical Engineering（波士顿大学生物医学工程系）

AI总结 DeepFilters 是一种用于扩展景深显微成像的深度光学框架，旨在解决传统和现有深度学习方法在散射组织中成像质量下降的问题。该方法通过一个可微分的正向模型，联合优化参数化的瞳孔滤波器和基于数字滤波器的重建网络，实现了无需重新训练的广泛适用性。DeepFilters 引入了经验散射核、物理引导的正则化和混合遗传-梯度初始化策略，显著提升了在清晰介质和生物组织中的成像深度与信号恢复能力。

Comments 38 pages (18 main text, 20 supplement), 23 Figures (7 main text, 16 supplement)

2605.13604 2026-05-14 cs.CV 版本更新

Rethinking Graph Convolution for 2D-to-3D Hand Pose Lifting

Chanyoung Kim, Donghyun Kim, Dong-Hyun Sim, Seong Jae Hwang, Youngjoong Kwon

发表机构 * Emory University（埃默里大学）； Yonsei University（延世大学）； WHATs Lab（WHATs实验室）

AI总结本文重新审视了图卷积网络在2D到3D手部姿态提升中的应用，探讨了是否应采用固定邻接图来编码手部骨骼结构。研究通过在FPHA数据集上进行参数匹配的消融实验，发现多头自注意力机制在性能上显著优于传统图卷积方法，并进一步表明基于软结构先验的图距离位置编码比硬邻接约束更有效。实验结果表明，自适应空间注意力比固定图卷积更能有效提升手部姿态估计的精度。

2605.13600 2026-05-14 cs.CV 版本更新

Sparse Code Uplifting for Efficient 3D Language Gaussian Splatting

Lovre Antonio Budimir, Yushi Guan, Steve Ryhner, Sven Lončarić, Nandita Vijaykumar

发表机构 * Faculty of Electrical Engineering and Computing（电子工程与计算学院）； Department of Computer Science（计算机科学系）； Vector Institute（向量研究所）

AI总结本文提出了一种名为SCOUP的高效三维语言高斯溅射方法，旨在解决在开放词汇三维场景理解中，如何高效关联高维视觉-语言嵌入与大量三维高斯点的问题。该方法通过解耦语言表示学习与三维高斯优化，利用二维图像区域的特征学习稀疏编码表示，并通过加权稀疏聚合将其提升至三维高斯点，从而实现高效的存储与快速渲染。实验表明，SCOUP在训练速度和内存效率上均有显著提升，并在多个基准测试中达到了与现有方法相当或更优的开放词汇查询准确率。

Comments 18 pages (9 pages main paper), 10 figures, preprint

2605.13591 2026-05-14 cs.CV 版本更新

Real2Sim: A Physics-driven and Editable Gaussian Splatting Framework for Autonomous Driving Scenes

Kaicong Huang, Talha Azfar, Weisong Shi, Ruimin Ke

发表机构 * Department of Civil and Environmental Engineering, Rensselaer Polytechnic Institute（拉特克利夫理工学院土木与环境工程系）； Department of Computer and Information Sciences, University of Delaware（德雷塞尔大学计算机与信息科学系）

AI总结本文提出了一种名为 Real2Sim 的物理驱动且可编辑的高斯点喷射框架，用于自动驾驶场景的生成。该方法结合了4D高斯点喷射与可微分的材料点方法求解器，能够重建具有时间连续性的动态驾驶场景，支持实例级编辑，并模拟真实的物体间及物体与环境之间的交互。该框架能够在保证物理合理性的前提下生成高保真的多样化场景，包括碰撞等复杂情况，实验表明其在渲染、重建、编辑及物理模拟方面表现优异，具有在自动驾驶感知、轨迹预测等任务中广泛应用的潜力。

2605.13586 2026-05-14 cs.CV cs.AI 版本更新

HetScene: Heterogeneity-Aware Diffusion for Dense Indoor Scene Generation

Zini Chen, Junming Huang, Rong Zhang, Jiamin Xu, Cheng Peng, Chi Wang, Weiwei Xu

AI总结本文提出 HetScene，一种面向异构结构的扩散模型，用于生成高密度、物理合理的室内场景。该方法通过区分主物体和次物体，将场景生成过程分解为结构布局生成和上下文布局生成两个阶段，从而更有效地建模复杂的物体分布与空间依赖关系。该框架提升了生成场景的可控性和物理合理性，为具身人工智能的仿真环境构建提供了有力支持。

2605.13583 2026-05-14 cs.CV 版本更新

Phy-CoSF: Physics-Guided Continuous Spectral Fields Reconstruction and Super-Resolution for Snapshot Compressive Imaging

Wudi Chen, Zhiyuan Zha, Xin Yuan, Shigang Wang, Bihan Wen, Jiantao Zhou, Gang Yan, Zipei Fan, Ce Zhu

发表机构 * College of Communication Engineering, Jilin University, Changchun 130012, China. ； School of Engineering, Westlake University, Hangzhou, Zhejiang 310024, China. ； School of Electrical \& Electronic Engineering, Nanyang Technological University, Singapore 639798. ； Department of Computer ； Information Science, University of Macau, Macau 999078, China. ； College of Computer Science ； Technology, Jilin University, Changchun 130012, China. ； College of Artificial Intelligence, Jilin University, Changchun 130012, China. ； School of Information ； Communication Engineering, University of Electronic Science

AI总结本文提出了一种名为Phy-CoSF的方法，用于解决快照压缩成像（CASSI）系统中高光谱图像的连续光谱重建与超分辨率问题。该方法结合深度展开网络与隐式神经表示，建立了一种新的连续光谱重建范式，能够生成任意波长的高保真高光谱图像。核心模块连续光谱场（CoSF）通过跨域特征融合和动态先验机制，显著提升了重建精度和光谱细节保留能力，实验表明其在多个指标上优于现有先进方法。

Comments 15 pages, 10 figures, accepted by ICML 2026!

2605.13581 2026-05-14 cs.CV 版本更新

HIR-ALIGN: Enhancing Hyperspectral Image Restoration via Diffusion-Based Data Generation

Li Pang, Heng Zhao, Yijia Zhang, Deyu Meng, Xiangyong Cao

发表机构 * School of Mathematics and Statistics, Xi’an Jiaotong University（西安交通大学数学与统计学学院）； School of Computer Science and Technology, Xi’an Jiaotong University（西安交通大学计算机科学与技术学院）； School of Mathematics and Statistics and the Ministry of Education Key Laboratory for Intelligent Networks and Network Security, Xi’an Jiaotong University（西安交通大学数学与统计学学院和教育部智能网络与网络安全重点实验室）； Pazhou Laboratory (Huangpu), Guangzhou（广州黄埔 Pazhou 实验室）

AI总结高光谱图像（HSI）修复在实际应用中面临噪声、模糊和分辨率下降等问题，而现有模型在缺乏干净参考的靶域数据上表现不佳。为此，本文提出HIR-ALIGN框架，通过扩散模型生成与靶域分布匹配的合成数据，增强修复效果。该方法包含代理生成、分布自适应合成和对齐监督微调三个阶段，有效提升了在靶域上的修复性能，并在去噪和超分辨率任务中展现出优于现有方法的实验结果。

详情

英文摘要

Hyperspectral image (HSI) restoration is crucial for reliable analysis, as real HSIs suffer from degradations like noise, blur, and resolution loss. However, existing models trained on source data often fail on target domains lacking clean references, a common occurrence in practice. To address this issue, we present HIR-ALIGN, a plug-and-play target-adaptive augmentation framework that enhances hyperspectral image restoration by augmenting limited training images with synthetic data that closely matches the target distribution using no extra data. It consists of three stages: (i) proxy generation, where off-the-shelf restoration models restore degraded target observations to produce semantics-preserving proxy HSIs that approximate target-domain clean images; (ii) distribution-adaptive synthesis, where a blur-robust unCLIP diffusion model generates target-aligned RGBs from proxy RGBs, with prompt conditioning and embedding-space noise initialization. Then, a warp-based spectral transfer module synthesizes HSIs by aligning each generated RGB with the proxy RGB, estimating soft patch-wise transport weights, and applying these weights and learnable local interpolation kernels to the proxy HSI; and (iii) aligned supervised finetuning, where restoration networks pretrained on the source distribution are finetuned using both the proxy HSIs and synthesized target-aligned HSIs, and are then deployed on degraded target images. We further provide theoretical analysis showing that augmentation-based finetuning can achieve lower target-domain restoration risk by jointly improving target distribution coverage and controlling spectral bias. Extensive experiments on simulated and real datasets across denoising and super-resolution tasks demonstrate that HIR-ALIGN consistently improves source-only supervised baselines, outperforming both source-only counterparts and representative unsupervised methods.

URL PDF HTML ☆

赞 0 踩 0

2605.13565 2026-05-14 cs.CV 版本更新

Qwen-Image-VAE-2.0 Technical Report

Zekai Zhang, Deqing Li, Kuan Cao, Yujia Wu, Chenfei Wu, Yu Wu, Liang Peng, Hao Meng, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Yan Shu, Yanran Zhang, Yilei Chen, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Yiliang Gu, Yi Wang, Xiaoxiao Xu, Lin Qu

发表机构 * Qwen Team（通义实验室）

AI总结本文介绍了 Qwen-Image-VAE-2.0，一套在重建保真度和扩散能力方面取得显著进展的高压缩变分自编码器（VAE）。通过引入全局跳接连接和扩展潜在通道，模型有效解决了高压缩下的重建瓶颈，并结合大规模图像训练和合成渲染引擎提升了文本密集场景的表现。研究还提出了一种增强的语义对齐策略以优化高维潜在空间的收敛性，并采用非对称且无需注意力机制的编解码结构以提高计算效率。实验表明，该模型在多个基准测试中达到先进水平，尤其在高压缩比下表现出卓越的重建和扩散能力。

2605.13544 2026-05-14 cs.CV 版本更新

CA-GCL: Cross-Anatomy Global-Local Contrastive Learning for Robust 3D Medical Image Understanding

Hanwen Zhang, Yao Liu, Die Dai, Jiaye Yang, Qiao Liu, Yutong Xie, Peng Wang

发表机构 * University of Electronic Science and Technology of China（电子科技大学）； Mohamed bin Zayed University of Artificial Intelligence（莫扎德人工智能大学）

AI总结本文提出了一种名为CA-GCL的跨解剖全局-局部对比学习框架，旨在提升三维医学图像理解的鲁棒性。该方法通过引入全局对比目标，增强解剖类别在潜在空间中的区分度，同时结合临床感知的文本增强策略，以应对描述不完整的问题。实验表明，CA-GCL在零样本异常检测任务中优于现有方法，且在不同数据集间具有良好的泛化能力，显著提升了模型对提示变化的稳定性。

2605.13530 2026-05-14 cs.CV cs.AI 版本更新

Towards Unified Surgical Scene Understanding:Bridging Reasoning and Grounding via MLLMs

Jincai Huang, Shihao Zou, Yuchen Guo, Jingjing Li, Wei Ji, Kai Wang, Shanshan Wang, Weixin Si

发表机构 * Southern University of Science and Technology（南方科技大学）； Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences（深圳先进技术研究院，中国科学院）； Northwestern University（西北大学）； University of Alberta（阿尔伯塔大学）； Yale University（耶鲁大学）； Nanfang Hospital（南华医院）； Shenzhen University of Advanced Technology（深圳大学先进技术研究院）

AI总结本文提出 SurgMLLM，一种统一的手术场景理解框架，旨在将高层语义推理与底层视觉定位相结合，解决现有方法在手术场景中孤立处理各组件导致的语义不一致问题。该方法通过微调多模态大语言模型，实现对手术阶段、工具-动作-目标三元组及对应分割区域的联合建模，并通过时序聚合和分割网络实现精确的像素级定位。实验表明，SurgMLLM 在三元组识别和分割任务上均取得显著提升，验证了统一推理与定位方法在手术辅助中的有效性。

详情

英文摘要

Surgical scene understanding is a cornerstone of computer-assisted intervention. While recent advances, particularly in surgical image segmentation, have driven progress, real-world clinical applications require a more holistic understanding that jointly captures procedural context, semantic reasoning, and precise visual grounding. However, existing approaches typically address these components in isolation, leading to fragmented representations and limited semantic consistency. To address this limitation, we propose SurgMLLM, a unified surgical scene understanding framework that bridges high-level reasoning and low-level visual grounding within a single model. Given surgical videos, SurgMLLM fine-tunes a multimodal large language model (MLLM) to support structured interpretability reasoning, which is used to jointly model phases, instrument-verb-target (IVT) triplets, and triplet-entity segmentation tokens. These tokens are then temporally aggregated and serve as prompts for a segmentation network, enabling accurate pixel-wise grounding of triplet instruments and targets. The entire framework is trained end-to-end with a unified objective that couples language-based reasoning supervision with visual grounding losses, promoting coherent cross-task learning and clinically consistent scene representations. To facilitate unified evaluation, we introduce CholecT45-Scene, extending CholecT45 dataset with 64,299 frames of pixel-level mask annotations for instruments and targets, aligned with existing triplet labels. Extensive experiments show that SurgMLLM significantly advances surgical scene understanding, improving the primary triplet recognition metric AP_IVT from 40.7% to 46.0% and consistently outperforming prior methods in phase recognition and segmentation. These results highlight the effectiveness of unified reasoning-and-grounding for reliable, context-aware surgical assistance.

URL PDF HTML ☆

赞 0 踩 0

2605.13493 2026-05-14 cs.CV 版本更新

PhysEditBench: A Protocol-Conditioned Benchmark for Dense Physical-Map Prediction with Image Editors

Jiaxin Yang, Yu Hou, Muxin Liu, Weixuan Liu, Ze Yuan, Zeming Chen, Zhongrui Wang, Xiaojuan Qi

发表机构 * Southern University of Science and Technology（南方科技大学）； The University of Hong Kong（香港大学）； East China Normal University（华东师范大学）

AI总结 PhysEditBench 是一个用于评估图像编辑器在密集物理图预测能力的协议条件化基准，涵盖了深度、法线、反照率、粗糙度和金属度五类目标。该基准通过构建目标依赖的数据集，并定义固定的输入输出协议，确保评估的标准化与可靠性。实验表明，尽管图像编辑器在部分指标上可与专业模型媲美，但在结构错误和光照敏感性方面仍存在明显不足。

Comments 48 pages, 12 figures, including references, appendix, and supplementary benchmark details

2605.13476 2026-05-14 cs.CV 版本更新

Neural Video Compression with Domain Transfer

Tiange Zhang, Rongqun Lin, Xiandong Meng, Haofeng Wang, Xing Tian, Qi Zhang, Siwei Ma

发表机构 * Shenzhen Graduate School, Peking University, Shenzhen, China（北京大学深圳研究生院，深圳，中国）； Pengcheng Laboratory, Shenzhen, China（鹏城实验室，深圳，中国）； School of Computer Science, Peking University, Beijing, China（北京大学计算机学院，北京，中国）

AI总结本文研究了神经视频编码中的领域迁移问题，旨在解决训练数据与测试数据之间分布差异导致的性能下降问题。提出了一种名为DCVC-DT的增强框架，通过轻量级的在线领域迁移机制，在推理过程中动态调整编码的潜在表示，从而有效缩小领域差距，无需修改编码器或解码器参数。同时，引入了帧级别的动态率失真调整方案，提升压缩效率与重建质量。实验表明，该方法在保持视频质量的同时，相比基线模型实现了更高的比特率节省，并增强了对未知测试数据的泛化能力。

Comments Accepted to ISCAS 2026 as an oral paper

2605.13465 2026-05-14 cs.CV 版本更新

Z-Order Transformer for Feed-Forward Gaussian Splatting

Can Wang, Lei Liu, Wei Jiang, Dong Xu

发表机构 * The University of Hong Kong（香港大学）； Futurewei Technologies Inc（未来科技公司）

AI总结本文提出了一种基于Transformer的前馈高斯点绘（Gaussian Splatting）方法，旨在解决传统3D高斯点绘在实时性方面的不足。通过引入Z-order策略将无序的高斯点组织成空间连贯的序列，并结合稀疏注意力机制，有效捕捉高斯点之间的空间与语义关系，从而在单次前向传播中高效建模上下文、压缩高斯点数量并预测其属性。实验表明，该方法在保证渲染质量的同时显著提升了生成新视角图像的速度。

Comments Accept by CVPR 2026, Oral

2605.13457 2026-05-14 cs.CV 版本更新

OP4KSR: One-Step Patch-Free 4K Super-Resolution with Periodic Artifact Suppression

Chengyan Deng, Pengbin Yu, Zhentao Chen, Wei Shen, Kai Zhang, Meng Li, Lunxi Yuan, Xue Zhou, Li Yu

发表机构 * School of Automation Engineering, University of Electronic Science and Technology of China（电子科技大学自动化工程学院）； OPPO AI Center, OPPO Inc.（OPPO人工智能中心）； School of Intelligence Science and Technology, Nanjing University（南京大学智能科学与技术学院）

AI总结本文提出了一种名为OP4KSR的一站式无块4K超分辨率方法，旨在解决基于扩散模型的现实场景图像超分辨率在直接生成4K图像时面临的显存限制问题。该方法基于强大的Flux架构，并结合极简压缩的F16 VAE，实现了在有限GPU资源下的高效推理，同时保持全局空间语义一致性。为了解决该方法引入的周期性伪影问题，作者提出了基于RoPE频率重缩放和自相关周期性损失的抑制策略，并构建了专门的训练数据集和三个基准测试，推动了4K超分辨率研究的发展。

2605.13403 2026-05-14 cs.RO cs.CV 版本更新

RotVLA: Rotational Latent Action for Vision-Language-Action Model

Qiwei Li, Xicheng Gong, Xinghang Li, Peiyan Li, Quanyun Zhou, Hangjun Ye, Jiahuan Zhou, Yadong Mu

发表机构 * Wangxuan Institute of Computer Technology, Peking University（王轩计算机技术研究所，北京大学）； Xiaomi Robotics（小米机器人）； CASIA

AI总结本文提出RotVLA，一种基于连续旋转潜行动作表示的视觉-语言-动作（VLA）框架，旨在解决现有潜行动作模型在动作表示离散化带来的重建行为简单、表达能力有限等问题。RotVLA将潜动作建模为SO(n)空间中的元素，具有连续性、组合性和符合现实动作动态的结构化几何特性，并通过三帧学习框架强化时间动态特性。实验表明，RotVLA在多个基准测试中表现出色，显著优于现有VLA模型。

2605.13402 2026-05-14 cs.CV cs.DS 版本更新

Fast and Compact Graph Cuts for the Boykov-Kolmogorov Algorithm

Christian Møller Mikkelstrup, Anders Bjorholm Dahl, Philip Bille, Vedrana Andersen Dahl, Inge Li Gørtz

AI总结本文研究了Boykov-Kolmogorov（BK）算法在计算最小$s$-$t$割问题中的性能优化，提出了改进的理论分析和新的快速紧凑算法（fcBK），将时间复杂度从$O(mn|C|)$降低至$O(m|C|)$。此外，作者设计了一种紧凑的图表示方法，使得算法能够在有限内存下处理包含数十亿顶点和万亿边的大规模图。实验表明，该实现是目前BK算法中最高效的实现，突显了内存效率在大规模图割计算中的重要性。

Comments 15 pages, 6 figures, submitted to the IEEE for possible publication

2605.13396 2026-05-14 cs.CV 版本更新

PreFIQs: Face Image Quality Is What Survives Pruning

Jan Niklas Kolf, Guray Ozgur, Andrea Atzori, Žiga Babnik, Vitomir Štruc, Naser Damer, Fadi Boutros

发表机构 * Fraunhofer Institute for Computer Graphics Research IGD（弗劳恩霍夫计算机图形研究研究所IGD）； University of Ljubljana（卢布尔雅那大学）； Technical University of Darmstadt（达姆施塔特技术大学）

AI总结本文提出了一种无需训练和监督的面部图像质量评估框架 PreFIQs，基于“剪枝识别示例”（PIE）假设，通过分析预训练人脸识别模型及其剪枝版本之间嵌入向量的欧几里得距离来衡量图像质量。该方法从雅可比向量积的角度提供了理论支持，并在多个基准数据集上取得了优于现有方法的性能，验证了参数剪枝作为评估面部图像质量的有效信号。

Comments Accepted at CVPR 2026 Workshops

2605.13395 2026-05-14 cs.LG cs.CV 版本更新

Taming the Long Tail: Rebalancing Adversarial Training via Adaptive Perturbation

Lilin Zhang, Yimo Guo, Yue Li, Jiancheng Shi, Xianggen Liu

发表机构 * Sichuan University（四川大学）； Dongfang Electric (Chengdu) Innovation Research Co., Ltd.（东方电子（成都）创新研究院有限公司）； Southwest China Research Institute of Electronic Equipment（西南中国电子设备研究院）

AI总结该论文研究了深度神经网络在长尾数据下的对抗训练问题，指出传统对抗训练方法在类别不平衡的数据上存在训练目标偏斜和对抗分布不稳定等局限。作者提出通过自适应调整对抗扰动来同时提升模型的鲁棒性和类别平衡能力，并设计了名为 RobustLT 的即插即用框架，实验表明该方法在多个长尾数据集上有效增强了模型的对抗鲁棒性与类别平衡性能。

Comments accepted by CVPR 2026

2605.13381 2026-05-14 cs.CV cs.MM 版本更新

Backbone is All You Need: Assessing Vulnerabilities of Frozen Foundation Models in Synthetic Image Forensics

Chiara Musso, Joy Battocchio, Andrea Montibeller, Giulia Boato

发表机构 * University of Trento（特伦托大学）

AI总结随着AI生成图像日益逼真，视觉Transformer（ViT）已成为现代深度伪造检测的核心技术。然而，现有方法普遍依赖冻结的预训练主干网络，这引入了一个隐蔽但关键的漏洞。本文提出了一种基于目标检测器ViT主干网络知识的灰盒攻击方法——替代迭代对抗攻击（SIAA），能够在目标检测器的特征空间内生成高效对抗样本，实验表明该方法在多种场景下均能实现接近白盒攻击的高成功率，揭示了仅凭主干网络知识即可严重削弱检测器可靠性的问题，突显了在对抗性多媒体取证中亟需更鲁棒防御机制的重要性。

2605.13375 2026-05-14 cs.CV cs.AI 版本更新

GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models

Mingzhe Huang, Weijun Wang, Xin Ding, Liang Mi, Hao Wen, Yuanchun Li, Lichen Pang, Shansong Yang, Yunxin Liu, Ting Cao

发表机构 * Institute for AI Industry Research (AIR), Tsinghua University（人工智能产业研究院（AIR），清华大学）； Juhaokan Technology Co.,Ltd（极皓科技有限公司）； Nanjing University（南京大学）； University of Science and Technology of China（中国科学技术大学）

AI总结在视觉-语言模型（VLMs）中，处理大量视觉标记会导致高昂的计算开销。为解决这一问题，本文提出GRIP-VLM，一种基于强化学习的组相对重要性剪枝框架，将剪枝建模为马尔可夫决策过程，通过监督预热引导的组相对策略优化（GRPO）直接探索离散选择空间，从而避免连续近似方法带来的次优解问题。该方法结合预算感知评分器，无需重新训练即可动态评估并适应不同压缩比，实验表明其在多个多模态基准上优于启发式和监督学习基线，在保持精度的同时实现了最高达15%的推理加速。

Comments 10 pages, 11 figures

2605.13366 2026-05-14 cs.CV cs.LG 版本更新

Neural Surrogate Forward Modelling For Electrocardiology Without Explicit Intracellular Conductivity Tensor

Shaheim Ogbomo-Harmitt, Cesare Magnetti, Jakub Grzelak, Oleg Aslanidi

发表机构 * King’s College London（伦敦国王学院）； PhysicsX

AI总结该研究针对无创心脏电生理学中的正向建模问题，提出了一种无需显式输入细胞内导电张量的深度学习方法，用于直接从左心房细胞内电位预测远场心电图。该方法通过深度学习模型学习电位与心电图之间的映射关系，避免了传统物理模型中难以测量的导电张量带来的结构误差。实验表明，该模型在仅使用74个受试者数据训练的情况下，取得了较高的预测精度（R²为0.949 ± 0.037），展示了其在改善房颤无创评估中的潜力。

Comments Accepted into the 9th International Conference on Computational and Mathematical Biomedical Engineering (CMBE2026)

2605.13349 2026-05-14 cs.CV 版本更新

Drag within Prior Distribution: Text-Conditioned Point-Based Image Editing within Distribution Constraints

Haoyang Hu, Masataka Seo, Yen-Wei Chen

发表机构 * Ritsumeikan University, Graduate School of Information（日光大学信息工程研究生院）； Engineering, Osaka Institute of Technology（工程学，大阪技术学院）

AI总结本文研究了在扩散模型框架下，如何在保持图像语义一致性和分布约束的前提下，实现基于文本条件的点编辑。为了解决传统点编辑方法中轨迹模糊、编辑范围过大导致的不自然伪影等问题，作者引入了基于CLIP的引导机制和先验保持损失函数，确保编辑过程在扩散先验分布范围内进行。同时，提出了一种方向加权的点追踪机制，提升了细粒度编辑的准确性和生成质量。

Comments ICASSP 2026 oral

2605.12088 2026-05-14 cs.CV 版本更新

UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation

Yiyan Xu, Qiulin Wang, Wenjie Wang, Yunyao Mao, Xintao Wang, Pengfei Wan, Kun Gai, Fuli Feng

发表机构 * University of Science and Technology of China（中国科学技术大学）； Kling Team, Kuaishou Technology（快手技术团队）

AI总结本文研究了多参考图像生成问题，即在文本指令引导下生成图像并忠实保留多个参考图像中的主体身份和外观细节。现有方法通常将语义和外观特征分离处理，导致模型难以正确关联主体与对应参考图像的细节，从而引发属性泄露和跨参考混淆。为此，作者提出UniCustom框架，在视觉语言模型编码前融合ViT和VAE特征，使模型能够同时学习主体语义和外观信息，并通过两阶段训练策略和槽位绑定正则化进一步提升生成质量。实验表明，UniCustom在多个基准上显著优于现有方法。

2605.12072 2026-05-14 cs.CV 版本更新

PairDropGS: Paired Dropout-Induced Consistency Regularization for Sparse-View Gaussian Splatting

Hantang Li, Qiang Zhu, Xiandong Meng, Xingtao Wang, Debin Zhao, Xiaopeng Fan

发表机构 * School of Computer Science, Harbin Institute of Technology, Shenzhen, China（哈尔滨工业大学深圳校区计算机科学学院，中国）； Pengcheng Laboratory, Shenzhen, China（鹏城实验室，中国）； Smart Coding Institute, Pengcheng Laboratory, Shenzhen, China（鹏城实验室智能编码研究所，中国）； School of Computer Science, Harbin Institute of Technology, Harbin, China（哈尔滨工业大学计算机科学学院，中国）

AI总结 PairDropGS 是一种基于配对 dropout 的一致性正则化方法，旨在提升稀疏视角下高斯溅射（Gaussian Splatting）的重建稳定性与质量。该方法通过从共享高斯场中构造配对的 dropout 子集，并引入低频一致性正则化，以保持场景布局和粗略几何结构的稳定性，同时避免对高频细节的过度约束。此外，PairDropGS 还采用渐进式一致性调度策略，增强训练过程中的鲁棒性，实验表明其在多个基准数据集上均取得了优于现有方法的重建效果。

Comments 11 pages,8 figures

2605.10556 2026-05-14 cs.CV cs.LG 版本更新

EnergyLens: Interpretable Closed-Form Energy Models for Multimodal LLM Inference Serving

Vittorio Palladino, Gianluca Palermo, Michael E. Papka, Zhiling Lan

发表机构 * University of Illinois Chicago（伊利诺伊大学香槟分校）

AI总结随着大语言模型架构日益多样化，并在异构加速器上处理多模态工作负载，优化推理能耗已成为与延迟和吞吐量同样关键的问题。现有方法要么将延迟作为能耗代理，要么依赖数据密集的黑箱模型，均难以适应不同的并行策略。本文提出EnergyLens，通过符号回归从性能剖析数据中推导出一个包含12个参数的闭式能耗模型，能够准确描述系统特性如并行度、批大小和序列长度对能耗的影响，其预测结果具有物理可解释性，并且仅需少量的剖析样本即可实现高精度的配置选择和跨硬件平台的泛化能力。

Comments 10 pages

2605.09020 2026-05-14 cs.CV 版本更新

The Direct Integration Theorem: A Rigorous Framework for Consistent Discrete Solutions of the Inverse Radon Problem

Mikhail G. Mozerov

发表机构 * Institute for Information Transmission Problems, Russian Academy of Sciences（信息传输问题研究所，俄罗斯科学院）

AI总结本文提出了一种新的直接积分定理（DIT），作为经典中心切片定理（CST）的非平凡推论，为连续域到离散域的数学一致转换提供了严谨的框架，解决了计算断层成像中的根本性难题。该方法无需传统 ramp 滤波和频率域插值，避免了零频奇点和谱失真等问题，并实现了基于采样参数和网格几何的准精确重建。实验表明，该方法在图像方差保持、重建质量及重投影保真度方面优于传统滤波反投影（FBP）方法，显著提升了图像的统计特性还原能力。

Comments Submitted to IEEE TPAMI. Code and data available at https://github.com/Mozerov-iitp/radon-dit/

2605.07653 2026-05-14 cs.CV eess.IV 版本更新

Aquatic Neuromorphic Optical Flow

Pei Zhang, Yunkai Liang, Kaiqiang Wang

发表机构 * School of Electrical Engineering, Guangxi University（广西大学电气工程学院）； Baise Artificial Intelligence Innovation and Development Center（百色人工智能创新与发展中心）； School of Physical Science and Technology, Northwestern Polytechnical University（西北工业大学物理科学与技术学院）

AI总结本文研究了水下环境中基于神经形态视觉的光流估计问题，提出了一种基于脉冲神经网络的自监督框架，能够从异步事件流中高效估计逐像素光流，有效克服了水下数据稀缺的瓶颈。该方法在保证视觉和定量性能的同时，显著提升了计算效率，为资源受限的水下边缘平台提供了轻量、实时且低成本的感知解决方案。

Comments This work is under review. Project page: https://github.com/pz-even/event_underwater_optical_flow

2605.05876 2026-05-14 cs.GR cs.CV 版本更新

3DSS: 3D Surface Splatting for Inverse Rendering

Mae Younes, Adnane Boukhayma

发表机构 * INRIA, University of Rennes（INRIA，里昂大学）

AI总结本文提出了一种名为3D Surface Splatting（3DSS）的可微表面点扩散渲染方法，用于从多视角图像中进行基于物理的逆向渲染。其核心思想是将表面分离问题直接建模为重建核的函数，从而推导出一种基于覆盖度的合成模型，能够生成抗锯齿的轮廓和稀疏区域的可见性梯度。结合优化的高动态范围环境光和密度感知的自适应细化，3DSS能够同时恢复物体的形状、空间变化的材质属性以及光照信息，并可通过有向点云重建方法自然地与基于网格的工作流程衔接。

2605.04557 2026-05-14 cs.CV cs.AI 版本更新

Efficient Geometry-Controlled High-Resolution Satellite Image Synthesis

Vlad Vasilescu, Daniela Faur, Teodor Costachioiu

发表机构 * Univ. POLITEHNICA Bucharest SIGMA Lab , CAMPUS Institute（巴比什-博亚尔银行大学 SIGMA 实验室，CAMPUS 机构）； Univ. POLITEHNICA Bucharest GEOSENSE , CAMPUS Institute（巴比什-博亚尔银行大学 GEOSENSE，CAMPUS 机构）

AI总结本文研究了如何高效生成受几何控制的高分辨率卫星图像，以解决该类图像稀缺且成本高昂的问题，这对土地覆盖分类、变化检测和灾害监测等任务的模型开发与测试造成阻碍。作者提出了一种基于现有预训练扩散模型的方法，通过引入窗口交叉注意力模块，仅利用跳跃连接特征实现对生成过程的控制，方法简洁高效。实验表明，该方法在性能上与现有控制技术相当，且在几何控制图对齐方面表现更优，同时指出现有评估方法的局限性，强调了对齐评估一致性的重要性。

Comments 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)

2605.02752 2026-05-14 cs.CV 版本更新

Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting

Giacomo Pacini, Luca Ciampi, Nicola Messina, Nicola Tonellotto, Giuseppe Amato, Fabrizio Falchi

发表机构 * Institute of Information Science and Technologies of the National Research Council (ISTI-CNR)（意大利国家研究理事会信息科学与技术研究所）； University of Pisa - Department of Information Engineering（比萨大学信息工程系）

AI总结本文研究了开放世界文本引导的类别无关计数（CAC）任务中语义对齐的问题，指出当前模型在理解文本提示与视觉场景之间关系时存在不足，导致计数结果不可靠。为此，作者提出了一种新的评估框架PrACo++，包含负标签测试和干扰项测试等新协议，并构建了包含多类别标注的MUCCA数据集。实验表明，尽管现有模型在标准指标上表现良好，但在语义理解与对齐方面仍存在明显缺陷，突显了构建更具语义感知能力模型的重要性。

Comments Code available at https://github.com/ciampluca/PrACo

详情

英文摘要

Open-world text-guided class-agnostic counting (CAC) has emerged as a flexible paradigm for counting arbitrary object classes by using natural language prompts. However, current evaluation protocols primarily focus on standard counting errors within single-category images, overlooking a fundamental requirement: the ability to correctly ground the textual prompt in the visual scene. In this paper, we show that several state-of-the-art CAC models often struggle to determine which object class should be counted based on the given prompt, revealing a misalignment between textual semantics and visual object representations. This limitation leads to spurious counting responses and reduced reliability in real-world scenarios. To systematically address these limitations, we propose a new evaluation framework focused on model robustness and trustworthiness. Our contribution is two-fold: (i) we introduce PrACo++ (Prompt-Aware Counting++), a novel test suite featuring two dedicated evaluation protocols -- the negative-label test and the distractor test -- paired with new specialized metrics; and (ii) we present the MUCCA (MUlti-Category Class-Agnostic counting) evaluation dataset, a new collection of real-world images featuring multiple annotated object categories per scene, unlike existing CAC benchmarks that typically include a single category per image. Our extensive experimental evaluation of 10 state-of-the-art methods shows that, despite strong performance under standard counting metrics, current models exhibit significant weaknesses in understanding and grounding object class descriptions. Finally, we provide a quantitative analysis of how semantic similarity between prompts influences these failures. Overall, our results underscore the need for more semantically grounded architectures and offer a reliable framework for future assessment in open-world text-guided CAC methods.

URL PDF HTML ☆

赞 0 踩 0

2605.02521 2026-05-14 cs.CV 版本更新

MooD: Perception-Enhanced Efficient Affective Image Editing via Continuous Valence-Arousal Modeling

Xinyi Yin, Yiduo Wang, Tingqi Hu, Meicong Si, Yunyun Shi, Shi Chen, Hao Wang, Junxiao Xue, Xuecheng Wu

发表机构 * School of Cyber Science and Engineering, Zhengzhou University（郑州大学信息科学与工程学院）； School of Computer Science and Technology, Xi’an Jiaotong University（西安交通大学计算机科学与技术学院）； School of Journalism and New Media, Xi’an Jiaotong University（西安交通大学新闻与传播学院）； Research Center for Space Computing System, Zhejiang Lab（浙江实验室空间计算系统研究中心）

AI总结本文提出MooD，一种基于连续愉悦-唤醒（Valence-Arousal）模型的感知增强型高效情感图像编辑框架，旨在解决现有情感图像编辑方法在推理效率和连续情感建模方面的不足。MooD通过引入VA感知检索策略和融合视觉迁移与感知增强语义引导，实现了细粒度且高效的可控情感编辑。同时，为弥补现有数据集对自然场景覆盖不足的问题，研究者构建了涵盖多场景的AffectSet数据集，进一步提升了模型的性能与泛化能力。

2604.28045 2026-05-14 cs.CV 版本更新

TAFA-GSGC: Group-wise Scalable Point Cloud Geometry Compression with Progressive Residual Refinement

Xiumei Li, Alexander Kopte, André Kaup

AI总结本文提出了一种名为TAFA-GSGC的可扩展点云几何压缩方法，能够在单一比特流和单一训练模型下实现多质量解码。该方法结合了分层残差细化与通道组熵编码，并引入了目标对齐特征聚合模块以减少增强残差中的跨层冗余。实验表明，TAFA-GSGC在保持良好压缩效率的同时，支持多达9个解码质量等级，并在D1-PSNR和D2-PSNR指标上分别实现了4.99%和5.92%的比特率降低。

Comments Accepted at IEEE International Conference on Image Processing (ICIP) 2026

2604.23018 2026-05-14 cs.CV cs.AI cs.LG 版本更新

AmaraSpatial-10K: A Spatially and Semantically Aligned 3D Dataset for Spatial Computing and Embodied AI

Mohammad Sadegh Salehi, Alex Perkins, Igor Maurell, Ashkan Dabbagh, Raymond Wong

发表机构 * Zero One Creative（Zero One创意）

AI总结该研究提出了一个名为 AmaraSpatial-10K 的三维数据集，旨在解决现有大规模三维资产在空间计算和具身人工智能应用中的部署难题。该数据集包含超过 10,000 个经过优化的合成三维资产，每个资产都具备精确的度量尺度、确定的锚点、分离的物理材质贴图以及多句文本元数据，便于直接使用。研究还引入了一套可复用的评估体系，显著提升了三维资产在图像检索、物理模拟和跨模态对齐等方面的性能。

2604.22686 2026-05-14 cs.CV 版本更新

SS3D: End2End Self-Supervised 3D from Web Videos

Marwane Hariat, Gianni Franchi, David Filliat, Antoine Manzanera

发表机构 * U2IS, ENSTA – Institut Polytechnique de Paris（U2IS，ENSTA–巴黎国立理工学院）； Pôle Recherche, Agence Ministérielle pour l’IA de Défense（人工智能防御部研究部）

AI总结本文提出 SS3D，一种基于 SfM 的大规模自监督预训练方法，用于从单目视频中进行端到端的三维估计。该方法在一个前向传播过程中联合预测深度、相机运动和内参，并通过统一的单检查点评估协议进行训练和评估。为了解决网络视频中多视角可观测性弱和数据异构性强的问题，作者引入了多视角信号代理（MVS）用于过滤和课程采样，并通过专家训练蒸馏到单一学生模型中，显著提升了模型性能。

2604.21360 2026-05-14 cs.CV 版本更新

Prototype-Based Test-Time Adaptation of Vision-Language Models

Zhaohong Huang, Yuxin Zhang, Wenjing Liu, Fei Chao, Rongrong Ji

发表机构 * Key Laboratory of Multimedia Trusted Perception（多媒体可信感知关键实验室）； Efficient Computing, Ministry of Education of China, Xiamen University, 361005, P.R. China（高效计算，中华人民共和国教育部，厦门大学，361005，中国）

AI总结本文提出了一种基于原型的测试时适配（PTA）方法，用于提升视觉-语言模型在测试阶段的性能。该方法通过构建类特定的知识原型来累积测试样本的信息，并根据每个样本的零样本分类置信度对原型进行自适应加权，从而提升模型对新数据的适应能力。与基于缓存的适配方法相比，PTA无需维护和检索缓存，显著提高了推理效率，同时在多个图像识别和点云分析基准测试中取得了优于现有方法的性能。

2604.10755 2026-05-14 cs.CV 版本更新

MMRareBench: A Rare-Disease Multimodal and Multi-Image Medical Benchmark

Junzhi Ning, Jiashi Lin, Yingying Fang, Wei Li, Jiyao Liu, Cheng Tang, Chenglong Ma, Wenhao Tang, Tianbin Li, Ziyan Huang, Guang Yang, Junjun He

发表机构 * Shanghai AI Laboratory（上海人工智能实验室）； Imperial College London（帝国理工学院）； Shanghai Jiao Tong University（上海交通大学）； Fudan University（复旦大学）

AI总结该论文提出了MMRareBench，首个针对罕见病的多模态和多图像医学评估基准，旨在评估模型在诊断、治疗规划、跨图像证据对齐和检查建议等四个临床流程中的综合能力。该基准包含1,756个问答对和7,958张医学图像，采用基于Orphanet的本体对齐和严格的评估协议，系统揭示了现有大型语言模型在罕见病场景下处理多图像信息时能力不足的问题，尤其在治疗规划方面表现较差。研究结果表明，尽管医学领域模型在诊断任务上表现较好，但在多图像任务中仍显著落后于通用模型。

2604.10634 2026-05-14 cs.CV 版本更新

NTIRE 2026 The Second Challenge on Day and Night Raindrop Removal for Dual-Focused Images: Methods and Results

Xin Li, Yeying Jin, Suhang Yao, Beibei Lin, Zhaoxin Fan, Wending Yan, Xin Jin, Zongwei Wu, Bingchen Li, Peishu Shi, Yufei Wang, Yu Li, Zhibo Chen, Bihan Wen, Robby T. Tan, Radu Timofte, Runzhe Li, Kui Jiang, Zhaocheng Yu, Yiang Chen, Junjun Jiang, Xianming Liu, Hongde Gu, Zeliang Li, Mache You, Jiangxin Dong, Jinshan Pan, Qiyu Rong, Bowen Shao, Hongyuan Jing, Mengmeng Zhang, Bo Ding, Hui Zhang, Yi Ren, Mohab Kishawy, Jun Chen, Anh-Kiet Duong, Petra Gomez-Kramer, Jean-Michel Carozza, Wangzhi Xing, Xin Lu, Enxuan Gu, Jingxi Zhang, Diqi Chen, Qiaosi Yi, Bingcai Wei, Wenjie Li, Bowen Tie, Heng Guo, Zhanyu Ma, Jiachen Tu, Guoyi Xu, Yaoxin Jiang, Cici Liu, Yaokun Shi, Paula Garrido Mellado, Daniel Feijoo, Alvaro Garcia Lara, Marcos V. Conde, Zhidong Zhu, Bangshu Xiong, Qiaofeng Ou, Zhibo Rao, Wei Li, Zida Zhang, Hui Geng, Qisheng Xu, Xuyao Deng, Changjian Wang, Kele Xu, Guanglu Dong, Qiyao Zhao, Tianheng Zheng, Chunlei Li, Lichao Mou, Chao Ren, Chang-De Peng, Chieh-Yu Tsai, Guan-Cheng Liu, Li-Wei Kang, Abhishek Rajak, Milan Kumar Singh, Ankit Kumar, Dimple Sonone, Kishor Upla, Kiran Raja, Huilin Zhao, Xing Xu, Chuan Chen, Yeming Lao, Wenjing Xun, Li Yang, Bilel Benjdira, Anas M. Ali, Wadii Boulila, Hao Yang, Ruikun Zhang, Liyuan Pan

AI总结本文介绍了NTIRE 2026第二届昼夜雨滴去除双焦点图像挑战赛的整体情况。该挑战基于真实场景下的Raindrop Clarity数据集，旨在建立一个在不同光照和对焦条件下具有良好实用性的雨滴去除基准。本次挑战吸引了168支队伍参与，其中17支队伍提交了最终方案，并在测试集上取得了较好的性能，展示了该领域技术的持续进步。

Comments Accepted by CVPR2026 Workshop; NTIRE 2026 Challenge Report

2604.02753 2026-05-14 cs.CV 版本更新

DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection

Siheng Wang, Yanshu Li, Bohan Hu, Zhengdao Li, Haibo Zhan, Linshan Li, Weiming Liu, Ruizhi Qian, Guangxin Wu, Hao Zhang, Jifeng Shen, Piotr Koniusz, Zhengtao Yao, Junhao Dong, Qiang Sun

发表机构 * Jiangsu University（江苏大学）； Brown University（布朗大学）； Nanyang Technological University（南洋理工大学）； MBZUAI ； University of New South Wales（新南威尔士大学）； USC ； University of Toronto（多伦多大学）； Data61 CSIRO

AI总结本文提出了一种名为DeCo-DETR的解耦认知DETR框架，旨在解决开放词汇目标检测（OVOD）在实际应用中的效率与性能问题。该方法通过构建基于预训练多模态模型的层次化语义原型空间，避免了推理时对文本编码器的依赖，从而提升了检测效率。同时，通过解耦语义推理与定位任务的训练策略，实现了检测精度与开放世界泛化的有效平衡，实验表明其在多个基准上表现出优异的零样本检测性能。

Comments Accepted at ICLR 2026

2603.24649 2026-05-14 cs.CV 版本更新

MedOpenClaw and MedFlowBench: Auditing Medical Agents in Full-Study Workflows

Weixiang Shen, Chengzhi Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Xiao Han, Zongyue Li, Jingpei Wu, Min Xu, Daguang Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan

发表机构 * Technical University of Munich（慕尼黑技术大学）； TUM University Hospital（TUM大学医院）； LMU Munich（慕尼黑大学）； Imperial College London（伦敦帝国理工学院）； University of Oxford（牛津大学）； Carnegie Mellon University（卡内基梅隆大学）； NVIDIA（NVIDIA公司）； National University of Singapore（新加坡国立大学）； Munich Center for Machine Learning（慕尼黑机器学习中心）

AI总结该研究指出当前医学影像评估基准过于关注预选的2D图像，未能反映真实临床工作流程中的复杂任务。为此，研究者提出了MedFlowBench和MedOpenClaw，前者是一个完整的医学影像研究评估基准，后者是一个可控的医学影像软件运行环境，用于评估视觉语言模型在完整研究中的表现。实验表明，仅凭最终答案的评分会高估模型性能，而真实任务中模型还需生成可审计的证据，才能正确完成复杂流程。

Comments 33 pages

2603.05093 2026-05-14 cs.LG cs.AI cs.CV 版本更新

From Baselines to Transport Geodesics: Axiomatic Attribution via Optimal Generative Flows

Cenwei Zhang, Lin Zhu, Manxi Lin, Lei You

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Aalto University（艾尔沃斯大学）； Alibaba（阿里巴巴）； Technical University of Denmark（丹麦技术大学）

AI总结该论文研究了特征归因中的路径选择问题，提出了一种基于最优生成流的归因方法。不同于传统的手工设计路径或模型敏感性几何，作者通过最小化运输过程中的动能作用，从数据生成过程中自动选择归因路径，从而获得更稳定和结构化的解释。研究证明了Aumann-Shapley积分在固定路径下的唯一性，并通过Rectified Flow等方法实现了该理论的近似，实验表明新方法在保持删除忠实度的同时提升了归因的稳定性。

Comments 10 figures, 31 pages

2602.17555 2026-05-14 cs.CV 版本更新

GraphThinker: Reinforcing Temporally Grounded Video Reasoning with Event Graph Thinking

Zixu Cheng, Da Li, Jian Hu, Yuhang Zang, Ziquan Liu, Shaogang Gong, Wei Li

发表机构 * Queen Mary University of London（伦敦玛丽女王大学）； Samsung AI Centre Cambridge（剑桥三星人工智能中心）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Nanyang Technological University（南洋理工大学）

AI总结视频推理需要对视频中对象和事件之间的时序依赖和事件级关系进行细粒度理解。当前多模态大语言模型在视频推理中容易产生严重的时序幻觉，其根本原因在于视觉-时序对齐较弱且缺乏对事件关系的显式结构建模。为此，本文提出GraphThinker，一种通过强化微调构建结构化事件表示并加强视觉对齐的视频推理方法，有效减少了推理过程中的幻觉问题。实验表明，该方法在多个基准数据集上均取得了显著的性能提升。

Comments Under review

2602.07458 2026-05-14 cs.CV 版本更新

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang

发表机构 * Harbin Institute of Technology, Shenzhen（哈尔滨工业大学（深圳））； The Hong Kong University of Science and Technology（香港科学与技术大学）； Tsinghua Shenzhen International Graduate School, Tsinghua University（清华大学深圳国际研究生学院，清华大学）

AI总结在线强化学习（RL）为复杂图像编辑提供了前景，但目前受限于可靠且细粒度奖励信号的缺乏。本文提出 SpatialReward，一种通过显式空间推理增强评估准确性的奖励模型，有效解决了现有评估器在跨图像比较和细粒度细节捕捉上的“注意力坍塌”问题。该模型基于预测的编辑区域进行像素级验证，显著提升了评估效果，并在多个基准测试中取得领先性能，同时作为在线RL的强效信号，显著提升了图像生成模型的表现。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2602.07029 2026-05-14 eess.IV cs.CV 版本更新

Guidestar-Free Adaptive Optics with Asymmetric Apertures

Weiyun Jiang, Haiyun Guo, Christopher A. Metzler, Ashok Veeraraghavan

发表机构 * Rice University（Rice大学）； University of Maryland, College Park（马里兰大学学院公园分校）

AI总结本文提出了一种无需引导星或波前传感器的闭环自适应光学系统，能够实时校正光学像差。该方法基于非对称孔径和机器学习，结合波前感知、点扩散函数估计与光学校正，实现了高效、低计算量的波前校正。实验表明，该方法在复杂自然场景中表现优于现有无引导星波前调控技术，测量次数和计算量分别减少了十倍和千倍。

Comments Accepted to ACM Transactions on Graphics (TOG)

2602.02560 2026-05-14 cs.LG cs.AI cs.CV 版本更新

Auditing Sybil: Explaining Deep Lung Cancer Risk Prediction Through Generative Interventional Attributions

Bartlomiej Sobieski, Jakub Grzywaczewski, Karol Dobiczek, Mateusz Wójcik, Tomasz Bartczak, Patryk Szatkowski, Przemysław Bombiński, Matthew Tivnan, Przemyslaw Biecek

发表机构 * National Lung Screening Trial Research Team（国家肺癌筛查试验研究组）

AI总结该研究针对深度学习模型Sybil在肺部癌症风险预测中的决策机制进行因果验证，提出了一个模型无关的审计框架S(H)NAP。该方法通过生成干预性归因，结合专家放射科医生的验证，系统分析模型对风险评分的因果贡献。研究发现，尽管Sybil在很多情况下表现类似专家，但其仍存在对临床无关伪影过度敏感和径向偏差等关键失效模式。

Comments ICML 2026

2601.22868 2026-05-14 cs.CV cs.LG 版本更新

Conditional Compatibility Learning for Context-Dependent Anomaly Detection

Shashank Mishra, Didier Stricker, Jason Rambach

发表机构 * German Research Center for Artificial Intelligence (DFKI)（德国人工智能研究中心（DFKI））； RPTU Kaiserslautern（科布伦茨-莱茵威达大学（RPTU）基尔伯恩）

AI总结该论文研究了上下文相关的异常检测问题，即同一对象在不同场景下可能表现出正常或异常的差异。传统方法通常假设异常是对象本身的属性，而本文指出这种假设在现实场景中并不成立。为此，作者提出了条件兼容性学习（Conditional Compatibility Learning）方法，通过分离对象和上下文的表示，并利用文本条件注意力机制进行融合，构建了CC-CLIP模型，在多个现实场景的异常检测任务中取得了显著优于现有方法的性能。

Comments Preprint. 9 pages main text, plus appendix

2512.16767 2026-05-14 cs.CV 版本更新

Make-It-Poseable: Feed-forward Latent Posing Model for 3D Characters

Zhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Zhenxun Yuan, Wengang Zhou, Houqiang Li

发表机构 * EEIS Department University of Science（电子信息科学系中国科学技术大学）； Tencent PCG Shenzhen China（腾讯PCG深圳中国）； Tencent PCG New York USA（腾讯PCG纽约美国）； Tencent PCG Beijing China（腾讯PCG北京中国）； University of Science（中国科学技术大学）； Tencent PCG（腾讯PCG）

AI总结本文提出了一种名为 Make-It-Poseable 的新型前馈框架，用于解决3D角色姿态生成中的关键问题，如皮肤权重不准确、网格拓扑固定和姿态不匹配等。该方法将角色姿态生成重新定义为一种无需皮肤绑定的潜在空间变换问题，通过在紧凑的潜在表示上操作，实现了对目标姿态的高效重建。该框架结合了潜在姿态变换器、密集姿态表示和自适应补全模块，能够处理拓扑变化并展现出优异的零样本泛化能力，适用于多种形态的角色和3D创作任务。

Comments Project page: https://jasongzy.github.io/Make-It-Poseable/

2511.09771 2026-05-14 cs.CV 版本更新

STORM: Segment, Track, and Object Re-Localization from a Single Image

Yu Deng, Teng Cao, Hikaru Shindo, Quentin Delfosse, Jiahong Xue, Kristian Kersting

发表机构 * Department of Computer Science, Technical University of Darmstadt, Darmstadt, Hesse, Germany（德累斯顿技术大学计算机科学系）； Hessian Center for Artificial Intelligence (hessian.AI), Darmstadt, Hesse, Germany（黑森人工智能中心（hessian.AI））； German Research Center for Artificial Intelligence (DFKI), Darmstadt, Hesse, Germany（德国人工智能研究中心（DFKI））； Centre for Cognitive Science, Technical University of Darmstadt, Darmstadt, Hesse, Germany（德累斯顿技术大学认知科学中心）； Google Intrinsic AI Research, Germany. † Work done while at the AIML research lab, now working at Intrinsic, Google.（谷歌Intrinsic AI研究）

AI总结 STORM 是一种统一的框架，能够基于单张参考图像进行条件化的6D姿态估计与跟踪，具有较高的鲁棒性和较低的人工输入需求。该方法结合了分层空间融合注意力机制和基于BCE训练的跟踪验证器，能够在遮挡和快速运动等复杂场景下稳定恢复目标姿态。实验表明，STORM 在无需标注的情况下优于现有方法，并能有效应对严重遮挡和视角变化。

Comments 21 pages. Accepted at the 43rd International Conference on Machine Learning (ICML 2026); camera-ready version

2508.09479 2026-05-14 cs.CV 版本更新

SkySplat: Generalizable 3D Gaussian Splatting from Multi-Temporal Sparse Satellite Images

Xuejun Huang, Xinyi Liu, Yi Wan, Zhi Zheng, Bin Zhang, Mingtao Xiong, Yingying Pei, Yongjun Zhang

发表机构 * School of Remote Sensing and Information Engineering, Wuhan University（武汉大学遥感与信息工程学院）； Technology Innovation Center for Collaborative Applications of Natural Resources Data in GBA, Ministry of Natural Resources（粤港澳大湾区自然资源数据协同应用技术创新中心，自然资源部）； Department of Geography and Resource Management, The Chinese University of Hong Kong（香港中文大学地理与资源管理系）； China Railway Siyuan Survey and Design Group Co., LTD（中国铁路syuan调查设计集团有限公司）

AI总结本文提出了一种名为SkySplat的新型自监督框架，旨在从多时相稀疏卫星图像中实现通用化的三维高斯点云重建。该方法通过将有理多项式系数（RPC）模型集成到通用3D高斯点云生成流程中，解决了现有方法在卫星图像处理中几何约束不足、瞬时物体干扰和辐射不一致等问题。SkySplat仅依赖RGB图像和鲁棒的相对高度监督，无需真实高度图即可实现高效且准确的重建，并在多个基准数据集上表现出优越的性能和跨数据集泛化能力。

Comments AAAI 2026. Code is available at https://github.com/NanCheng2001/SkySplat-main

2505.21238 2026-05-14 cs.CV 版本更新

3D-UIR: 3D Gaussian for Underwater 3D Scene Reconstruction via Physics Based Appearance-Medium Decoupling

Jieyu Yuan, Yujun Li, Yuanlin Zhang, Chunle Guo, Xiongxin Tang, Ruixing Wang, Chongyi Li

发表机构 * VCIP, College of Computer Science, Nankai University（VCIP，计算机科学学院，南开大学）； Institute of Software, Chinese Academy of Sciences（软件研究所，中国科学院）； DJI（大疆创新）

AI总结该论文提出了一种基于物理原理的3D高斯点云方法（3D-UIR），用于解决水下三维场景重建中的光-介质耦合问题。通过将物体外观与水介质效应解耦，并引入显式的介质嵌入表示，有效提升了场景的一致性和渲染质量。此外，该方法结合深度引导的优化策略，提高了几何重建的准确性，在水下场景的视图合成和场景恢复方面取得了显著改进。

Comments Accepted to IEEE TIP 2026. Project webpage: https://bilityniu.github.io/3D-UIR

2505.15616 2026-05-14 cs.CV 版本更新

LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models

Ruilin Yao, Bo Zhang, Jirui Huang, Xinwei Long, Yifang Zhang, Tianyu Zou, Yufei Wu, Shichao Su, Yifan Xu, Wenxi Zeng, Zhaoyu Yang, Guoyou Li, Shilan Zhang, Zichan Li, Yaxiong Chen, Shengwu Xiong, Peng Xu, Jiajun Zhang, Bowen Zhou, David Clifton, Luc Van Gool

发表机构 * Wuhan University of Technology（武汉理工大学）； Tsinghua University（清华大学）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； Shanghai AI Lab（上海人工智能实验室）； University of Oxford（牛津大学）； INSAIT, Sofia Un. St Kliment Ohridski（索菲亚大学克里门特·欧里迪斯基学院）

AI总结该研究提出了LENS，一个多层级的基准测试，用于评估多模态大语言模型在感知、理解和推理任务中的综合能力。LENS包含3400张当代图像和6万余个由人类撰写的问答，覆盖八个任务和十二种日常场景，支持从基础感知到复杂推理的多层次评估。该数据集通过丰富的标注和来自社交媒体的高质量图像，能够更真实地反映模型在现实场景中的表现，实验表明当前前沿模型在推理任务上的准确率均未超过60%。

Comments Published as a conference paper at ICLR 2026

1811.12784 2026-05-14 cs.CV 版本更新

The GAN that Warped: Semantic Attribute Editing with Unpaired Data

Gara Dorta, Sara Vicente, Neill D. F. Campbell, Ivor J. A. Simpson

发表机构 * University of Bath（巴斯大学）； Anthropics Technology Ltd.（Anthropics技术有限公司）； University of Sussex（苏塞克斯大学）

AI总结该研究提出了一种基于平滑变形场的语义图像编辑方法，能够在不依赖配对数据的情况下实现高质量的图像编辑。通过结合生成对抗网络（GAN）的最新进展，该方法能够使用未配对数据进行训练，有效保留图像主体的身份特征，并在高分辨率（如4K）图像上实现了高效的编辑。实验表明，该方法在人脸和鸟类图像数据集上均表现出优异的编辑效果和鲁棒性。

Comments CVPR 2020

1804.05261 2026-05-14 cs.CV cs.GR 版本更新

Physics-driven Fire Modeling from Multi-view Images

Gara Dorta, Luca Benedetti, Dmitry Kit, Yong-Liang Yang

发表机构 * University of Bath（巴斯大学）

AI总结该研究提出了一种从多视角图像中重建物理合理的火焰模型的新方法，解决了传统火焰建模中依赖复杂物理模拟或简化假设的问题。通过RGB相机首次实现了对火焰体积物理属性（如温度、密度）的合理估计，从而支持全局火焰光照等新现象。该方法在多种输入数据上进行了验证，并成功应用于虚拟场景的真实光照生成，展示了其有效性与实用性。

1804.01050 2026-05-14 stat.ML cs.CV cs.LG 版本更新

Training VAEs Under Structured Residuals

Gara Dorta, Sara Vicente, Lourdes Agapito, Neill D. F. Campbell, Ivor Simpson

发表机构 * University of Bath（巴斯大学）； Anthropics Technology Ltd.（Anthropics技术有限公司）； University College London（伦敦大学学院）

AI总结本文研究了在变分自编码器（VAE）中如何更好地建模图像重构残差中的结构化相关性。传统VAE假设像素间的不确定性是独立的，但实际重构残差往往具有明显结构。为此，作者提出了一种新的方法，在VAE中引入结构化高斯似然预测网络，以建模残差中的相关性，并在保持模型复杂度较低的前提下，有效提升了VAE对颜色图像的不确定性建模能力与生成质量。

Comments Simplified training methodology, added more results

2605.13335 2026-05-14 cs.AI cs.CV 版本更新

Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning

Qinchuan Cheng, Zhantao Gong, Pengzhan Sun, Angela Yao, Xulei Yang, Shijie Li

发表机构 * Xi’an Jiaotong University（西安交通大学）； Nankai University（南开大学）； National University of Singapore（新加坡国立大学）； A*STAR

AI总结本文提出 Ego2World，一个将第一视角烹饪视频编译为可执行符号世界的基准，用于评估具身智能体在部分可观测环境下的规划能力。该方法基于视频标注提取可复用的状态转移规则，并在隐藏的符号世界图中执行，迫使智能体仅依靠局部观测和执行反馈进行规划与记忆更新。实验表明，传统动作重叠度指标可能高估任务成功率，而维持持久的信念记忆有助于提升任务完成效率并减少重复视觉探索。

Comments Project page: https://sj-li.com/PROJ/Ego2World/

2605.13333 2026-05-14 cs.CV cs.AI cs.GR cs.LG 版本更新

Stylized Text-to-Motion Generation via Hypernetwork-Driven Low-Rank Adaptation

Junhyuk Jeon, Seokhyeon Hong, Junyong Noh

发表机构 * Visual Media Lab, KAIST（韩国庆熙大学视觉媒体实验室）

AI总结该研究针对文本驱动的运动扩散模型在生成精细风格化动作时的不足，提出了一种轻量级的风格条件生成框架。通过超网络生成低秩适配参数，动态调节预训练扩散模型，从而在去噪过程中实现对风格的精细控制。该方法利用监督对比损失结构风格潜在空间，提升了对未见风格的泛化能力，并在多个数据集上取得了领先的风格化生成效果。

Comments Accepted to SIGGRAPH 2026. Project page: https://junhyukjeon.github.io/projects/style-salad/

2605.13328 2026-05-14 cs.RO cs.AI cs.CL cs.CV 版本更新

What Limits Vision-and-Language Navigation ?

Yunheng Wang, Yuetong Fang, Taowen Wang, Lusong Li, Kun Liu, Junzhe Xu, Zizhao Yuan, Yixiao Feng, Jiaxi Zhang, Wei Lu, Zecui Zeng, Renjing Xu

发表机构 * HKUST(GZ)（香港科技大学（广州））； JD Explore Academy（京东探索研究院）

AI总结视觉与语言导航（VLN）是具身智能的重要研究方向，但在从仿真环境迁移到真实世界时，现有方法常因感知不稳定和指令模糊而表现下降。本文提出StereoNav，一种融合视觉、语言和动作的鲁棒框架，通过引入目标位置先验和双目视觉技术，增强跨域导航的稳定性与准确性。实验表明，StereoNav在多个基准测试中取得先进性能，并在真实机器人部署中显著提升了复杂环境下的导航可靠性。

2605.13316 2026-05-14 cs.CV 版本更新

Test-time Sparsity for Extreme Fast Action Diffusion

Kangye Ji, Yuan Meng, Jianbo Zhou, Ye Li, Chen Tang, Zhi Wang

发表机构 * Tsinghua University（清华大学）； The Chinese University of Hong Kong（香港中文大学）

AI总结该研究针对动作扩散模型在生成高质量动作序列时计算成本高的问题，提出了一种测试时稀疏化方法，通过动态预测模型前向过程中的可剪枝残差计算，以加速动作生成。为解决重复编码和剪枝带来的效率瓶颈，设计了高度并行的推理流程，并引入多向复用策略，有效提升了剪枝稀疏度与生成效率。实验表明，该方法在保持性能不变的情况下，将计算量降低了92%，生成速度提升了5倍。

详情

英文摘要

Action diffusion excels at high-fidelity action generation but incurs heavy computational costs owing to its iterative denoising nature. Despite current technologies showing promise in accelerating diffusion transformers by reusing the cached features, they struggle to adapt to policy dynamics arising from diverse perceptions and multi-round rollout iterations in open environments. We propose test-time sparsity to tackle this challenge, which aims to accelerate action diffusion by dynamically predicting prunable residual computations for each model forward at test time. However, two bottlenecks remain in this paradigm: 1) repetitive conditional encoding and pruning offset most potential speed gains, and 2) the features cached from previous denoising timesteps cannot constrain large pruning errors under aggressive sparsity. To address the first bottleneck, we design a highly parallelized inference pipeline that minimizes the non-decoder delay to milliseconds. Specifically, we first design a lightweight pruner that shares the encoder with the diffusion transformer. Then, we decouple the encoding and pruning from the autoregressive denoising loop by processing all denoising timesteps in parallel, and overlap the pruner with the decoder forward inference through asynchronism. To overcome the second bottleneck, we introduce an omnidirectional reusing strategy, which achieves 95% sparsity by selectively reusing features cached from the current forward, previous denoising timesteps, and earlier rollout iterations. To learn the rollout-level reusing strategies, we sample a few action trajectories to supervise the sparsified diffusion step by step. Extensive experiments demonstrate that our method reduces FLOPs by 92% and accelerates action generation by 5x, achieving lossless performance with an inference frequency of 47.5 Hz. Our code is available at https://github.com/ky-ji/Test-time-Sparsity.

URL PDF HTML ☆

赞 0 踩 0

2605.13306 2026-05-14 cs.CV 版本更新

Color Constancy in Hyperspectral Imaging via Reduced Spectral Spaces

G. Dofri Vidarsson, Liying Lu, Sabine Süsstrunk

发表机构 * \'Ecole Polytechnique F\'ed\'erale de Lausanne (EPFL), Lausanne, Switzerland

AI总结本文研究了如何通过降低光谱维度来提升高光谱成像中的颜色恒定性估计性能。作者采用基于相关性的颜色估计（CbC）框架，分析了不同光谱降维策略对光照估计的影响，揭示了在何种条件下紧凑的光谱表示优于传统RGB方法。该研究为高效利用高光谱信息进行光照估计提供了实用指导。

2605.13293 2026-05-14 cs.CV 版本更新

Img2CADSeq: Image-to-CAD Generation via Sequence-Based Diffusion

Shiyu Tan, Zixuan Zhao, Hao Gao, Zhiheng Chen, Xiaolong Yin, Enya Shen

发表机构 * School of Software Tsinghua University China（软件学院清华大学中国）； Tsinghua University（清华大学）

AI总结该论文提出了一种名为Img2CADSeq的多阶段图像到CAD生成方法，旨在从单视角图像中生成高质量的边界表示（BRep）CAD模型。其核心方法是将CAD操作序列编码为三级层次化代码本，并通过重要性优先策略，优先保留轮廓信息以压缩长序列到稳定的离散潜在空间。为弥合图像与CAD之间的模态差异，研究引入了基于对比学习的点云中间表示，结合VQ-Diffusion模型进行条件生成，并在新构建的CAD-220K和PrintCAD数据集上验证了方法的有效性，显著优于现有方法，生成的STEP文件可直接用于商业CAD软件。

Comments Accepted by SIGGRAPH 2026 Conference

2605.13277 2026-05-14 cs.CL cs.AI cs.CV cs.IR cs.LG 版本更新

Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation

Weiqing Luo, Zongye Hu, Xiao Wang, Zhiyuan Yu, Haofeng Zhang, Ziyi Huang

发表机构 * Arizona State University（亚利桑那州立大学）； Texas A&M University（德克萨斯大学）； Morgan Stanley（摩根大通）

AI总结本文研究了多模态检索增强生成（RAG）中视觉证据的选择问题，指出现有方法通常基于语义相关性或表面相似性，难以准确反映证据对下游推理的实际效用。为此，作者从信息论角度重新定义了证据的效用，提出通过模型输出分布的信息增益来衡量证据价值，并设计了一种无需训练、基于轻量多模态模型的高效估计框架。实验表明，该方法在多个基准上优于现有RAG方法，同时显著降低了计算成本。

Comments Accepted to ACL 2026

2605.13228 2026-05-14 cs.CV cs.AI 版本更新

ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding

Xiao Liu, Nayu Liu, Junnan Zhu, Ruirui Chen, Guohui Xiang, Changjian Wang, Kaiwen Wei, Rongzhen Li, Jiang Zhong

发表机构 * Chongqing University（重庆大学）； Tianjin University（天津大学）； MAIS, Institute of Automation, Chinese Academy of Sciences（自动化研究所，中国科学院MAIS）； Institute of High Performance Computing (IHPC), Agency for Science, Technology and Research (A*STAR), Singapore（新加坡科技研究局高性能计算研究所）； Chongqing National Data AI Research Institute, AI Research Lab（重庆国家数据AI研究院，AI研究实验室）

AI总结该论文提出了一种名为 ReTool-Video 的递归工具使用视频代理方法，旨在提升视频理解中复杂推理和跨模态分析的能力。为了解决现有视频代理在工具粒度和动作空间上的局限，研究构建了包含134个工具的 MetaAug-Video 工具库（MVTL），支持细粒度操作和多级信息访问，并设计了递归工具调用机制，将高层视频意图逐步分解为可执行的工具链。实验表明，该方法在多个基准测试中表现优异，显著提升了复杂视频理解的稳定性和效果。

2605.13223 2026-05-14 cs.CV 版本更新

Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation

Abdelrahman Eldesokey, Merey Ramazanova, Ahmad Sait, Ansar Khangeldin, Karen Sanchez, Tong Zhang, Bernard Ghanem

发表机构 * King Abdullah University of Science and Technology（卡斯泰大学）

AI总结随着文本到图像生成技术的快速发展，可靠的模型评估变得尤为重要。本文提出了一种技能对齐注释方法，使注释策略更符合不同评估技能的本质特征，从而提升评估的一致性和稳定性。研究还构建了一个自动化评估流程，实现了可扩展的细粒度评估，并强调改进评估基础可以提高效率，而无需单纯增加注释工作量。

Comments Project Page: https://abdo-eldesokey.github.io/skill-aligned-eval/

2605.13202 2026-05-14 cs.CV cs.AI 版本更新

STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

Hongli Liu, Yu Wang, Shengjie Zhao

发表机构 * School of Computer Science and Technology, Tongji University（同济大学计算机科学与技术学院）； Engineering Research Center of Key Software Technologies for Smart City Perception and Planning, Ministry of Education（教育部智能城市感知与规划关键软件技术工程研究中心）

AI总结本文研究了少样本动作识别（FSAR）中的语义-时序对齐问题，提出了一种统一的语义-时序自适应表示学习框架STAR。该方法通过引入时序语义注意力机制和语义时序原型细化模块，有效解决了文本提示与动作序列中稀疏视觉线索的对齐问题，并增强了对多尺度时序动态的建模能力。实验表明，STAR在多个基准数据集上均优于现有方法，验证了其在有限样本条件下的有效性。

Comments Accepted for publication in IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

详情

DOI: 10.1109/TCSVT.2026.3688705

英文摘要

Few-shot action recognition (FSAR) requires models to generalize to novel action categories from only a handful of annotated samples. Despite progress with vision-language models, existing approaches still suffer from semantic-temporal misalignment, where static textual prompts fail to capture decisive visual cues that appear sparsely across sequences, and from inadequate modeling of multi-scale temporal dynamics, as short-term discriminative cues and long-range dependencies are often either oversmoothed or fragmented. To address these challenges, we propose Semantic Temporal Adaptive Representation Learning (STAR), a unified framework, consisting of a semantic-alignment component and a temporal-aware component, effectively bridging the semantic and temporal gaps and transferring the sequence modeling capability of Mamba into the FSAR. The semantic alignment module introduces a Temporal Semantic Attention (TSA) mechanism, which performs frame-level cross-modal alignment with textual cues, ensuring fine-grained semantic-temporal consistency. The temporal-aware module incorporates a Semantic Temporal Prototype Refiner (STPR) that integrates semantic-guided Mamba blocks with multi-frequency temporal sampling and bidirectional state-space refinement, yielding semantically aligned prototypes with enhanced discriminative fidelity and temporal consistency. Furthermore, temporally dependent class descriptors derived from large language models (LLMs) provide long-range semantic guidance. Extensive experiments on five FSAR benchmarks demonstrate the consistent superiority of STAR over state-of-the-art methods. For instance, STAR achieves up to 8.1% and 6.7% gains on the SSv2-Full and SSv2-Small datasets under the 1-shot setting, and 7.3% on HMDB51, validating its effectiveness under limited supervision. The code is available at https://github.com/HongliLiu1/STAR-main.

URL PDF HTML ☆

赞 0 踩 0

2605.13182 2026-05-14 cs.CV 版本更新

DiffST: Spatiotemporal-Aware Diffusion for Real-World Space-Time Video Super-Resolution

Zheng Chen, Ruofan Yang, Jin Han, Dehua Song, Zichen Zou, Chunming He, Yong Guo, Yulun Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Huawei Noah’s Ark Lab（华为诺亚实验室）； Duke University（杜克大学）； Huawei Consumer Business Group（华为消费者业务集团）

AI总结 DiffST 是一种高效的时空感知扩散框架，旨在解决真实场景下的时空视频超分辨率（STVSR）问题。该方法通过引入跨帧上下文聚合和视频表示引导模块，提升了对时空信息的利用效率，并采用一步采样策略提高了推理速度。实验表明，DiffST 在多个真实场景任务中取得了领先的性能，且推理速度比现有方法快约17倍。

Comments Code is available at: https://github.com/zhengchen1999/DiffST

2605.13179 2026-05-14 cs.CV 版本更新

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Jinghao Wang, Qiyuan He, Chunbin Gu, Pheng-Ann Heng

发表机构 * The Chinese University of Hong Kong（香港中文大学）； National University of Singapore（新加坡国立大学）

AI总结该研究探讨了Engram模块在自回归图像生成中的作用，发现其虽能减少计算量，但并未提升生成图像的质量。通过实验分析表明，Engram模块更像是一个带有门控机制的辅助路径，而非内容寻址的回忆机制。研究进一步指出，Engram模块对生成结果的改进主要来源于其结构本身，而非记忆表中的内容。

Comments 9 pages

详情

英文摘要

The Engram module -- a hash-keyed, O(1) associative memory injected into Transformer layers -- was recently shown to improve large language model pretraining, with the appealing interpretation that it provides a content-addressed shortcut to recurring local token patterns. We ask whether this interpretation transfers to autoregressive (AR) image generation, or whether the observed gains, if any, come from a different mechanism. We adapt the Engram module to vision with 2D spatial $n$-gram hashing, gated fusion, and KV-cache-compatible incremental inference, and inject it into a class-conditional AR generator trained on ImageNet 256x256. Across a sweep of backbone-to-memory budget ratios $ρ{\in}[0.17, 0.90]$, every Engram-augmented variant trails the pure AR baseline in FID, indicating that the module saves backbone FLOPs but does not, by itself, improve sample quality. We then probe how the module is used. A gate-clamp sweep shows that disabling the Engram pathway entirely is catastrophic, yet a tiny constant gate (g=0.10) matches or beats the learned gate -- inconsistent with a heavily content-addressed recall mechanism. A donor-probe experiment shows that swapping the hash inputs for matched, adversarial, or random same-class exemplars produces statistically indistinguishable next-token distributions, while collapsing or randomising the table degrades them by two to three orders of magnitude. Finally, training a model from scratch with the entire memory table frozen to $\mathcal{N}(0, 1)$ noise costs only $Δ\text{FID}{=}0.10$ and actually raises Inception Score. Together, these findings indicate that the Engram in AR image generation behaves not as a content-addressed retriever but as a gated architectural side-pathway: a hash-keyed residual stream whose benefit is dominated by the pathway itself, with the learned table contributing only a small distributional refinement.

URL PDF HTML ☆

赞 0 踩 0

2605.13163 2026-05-14 cs.CR cs.CV cs.LG 版本更新

LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters

Beomjin Ahn, Jungmin Kwon, Chanyong Jung, Jaewook Chung

发表机构 * Samsung Research（三星研究院）； Samsung Electronics（三星电子）； Amazon Web Services（亚马逊网络服务）； University of Michigan（密歇根大学）

AI总结该论文提出了一种名为LoREnc的训练-free框架，用于保护基础模型和LoRA适配器的安全，防止知识产权泄露和模型恢复攻击。其核心方法基于谱截断与补偿技术，通过抑制基础模型权重中的主导低秩成分，并在授权适配器中补偿缺失信息，同时利用正交重参数化隐藏适配器的结构特征。实验表明，LoREnc在保证模型性能的同时，能有效抵御模型恢复攻击，且计算开销极低。

Comments Accepted to ICIP 2026

2605.13158 2026-05-14 cs.CV 版本更新

Unifying Physically-Informed Weather Priors in A Single Model for Image Restoration Across Multiple Adverse Weather Conditions

Jiaqi Xu, Xiaowei Hu, Lei Zhu, Pheng-Ann Heng

发表机构 * Department of Computer Science and Engineering, The Chinese University of Hong Kong, Hong Kong SAR, China（香港中文大学（深圳）计算机科学与工程系）； Shanghai Artificial Intelligence Laboratory, Shanghai, China（上海人工智能实验室）； ROAS Thrust, the Hong Kong University of Science and Technology (Guangzhou), Guangzhou, China and The Hong Kong University of Science and Technology, Department of Electronic and Computer Engineering, Hong Kong SAR, China（香港科学与技术大学（广州）ROAS方向及电子与计算机工程系，香港特别行政区）

AI总结本文研究了在多种恶劣天气条件下进行图像修复的问题，提出了一种统一的物理感知天气先验模型，能够同时处理雨滴和雾等不同天气引起的退化现象。该方法基于对天气相关视觉因素的分析，构建了一个融合粒子散射和雾状聚集效应的成像模型，并设计了一种基于天气先验的网络结构，通过估计遮挡和透射信息增强特征以恢复清晰场景。实验表明，该方法在多种恶劣天气场景下均优于现有先进方法。

Comments Accepted by TCSVT

2605.13156 2026-05-14 cs.CV 版本更新

Dual-Pathway Circuits of Object Hallucination in Vision-Language Models

Jiaxin Liu, Ding Zhong, Yue Wang, Zhidong Yang, Zhaolu Kang, Guangyuan Dong, Qishi Zhan, Pengcheng Fang, Aofan Liu

发表机构 * UIUC（伊利诺伊大学香槟分校）； UMich（密歇根大学）； Stanford（斯坦福大学）； HKUST（香港科技大学）； PKU（北京大学）； NUS（新加坡国立大学）； Marquette（马quette大学）； Southampton（南安普顿大学）

AI总结视觉语言模型（VLMs）在跨模态理解任务中表现出色，但常出现物体幻觉问题，即描述输入图像中并不存在的内容，影响其可靠性和可解释性。本文提出了一种双路径电路分析框架，用于识别和分析VLM中与幻觉相关的电路机制。通过激活路径修补和条件路径分析，研究发现了支持正确预测的视觉接地路径和导致错误输出的幻觉路径，并揭示了两者的交互机制。实验表明，抑制幻觉路径组件可显著减少物体幻觉，且该电路机制在不同模型架构和幻觉类型中具有良好的一致性和可迁移性。

2605.13155 2026-05-14 cs.CV 版本更新

Pareto-Guided Optimal Transport for Multi-Reward Alignment

Ying Ba, Tianyu Zhang, Mohan Zhou, Yalong Bai, Wenyi Mo, Guiwei Zhang, Bing Su, Ji-Rong Wen

发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China（中国人民大学北京校区人工智能学院）； Beijing Key Laboratory of Research on Large Models（北京大模型研究关键实验室）； Engineering Research Center of Next-Generation Intelligent Search（下一代智能搜索与推荐工程技术研究中心）； Rutgers University（罗格斯大学）

AI总结文本到图像生成模型在偏好优化方面取得了显著进展，但在面对多样化的奖励模型时，实现稳健的对齐仍是一个重大挑战。本文提出了一种基于帕累托前沿引导的最优传输（PG-OT）框架，通过构建特定提示的帕累托前沿，并利用分布感知的最优传输将劣化样本映射至该前沿，从而有效缓解奖励黑客问题。此外，作者引入了联合支配率（JDR）和联合崩溃率（JCR）作为评估多奖励协同效应和奖励黑客风险的指标，实验表明该方法在多个指标上均优于现有方法。

Comments Accepted to ICML 2026

2605.13152 2026-05-14 cs.CV cs.AI cs.LG cs.RO 版本更新

EvObj: Learning Evolving Object-centric Representations for 3D Instance Segmentation without Scene Supervision

Jiahao Chen, Zihui Zhang, Yafei Yang, Jinxi Li, Shenxing Wei, Zhixuan Sun, Bo Yang

发表机构 * Shenzhen Research Institute, The Hong Kong Polytechnic University（深圳研究 institute，香港理工大学）； vLAR Group, The Hong Kong Polytechnic University（vLAR 团队，香港理工大学）

AI总结本文提出了一种名为 EvObj 的无监督三维实例分割方法，旨在解决从合成数据到真实点云场景中几何域差距带来的挑战。该方法通过引入对象辨别模块和对象补全模块，实现了对物体先验的动态优化和部分几何结构的重建，从而提升了在真实场景中的分割性能。实验表明，EvObj 在多个数据集上均取得了优于现有方法的分割效果，达到了当前最先进的水平。

Comments CVPR 2026. Code and data are available at: https://github.com/vLAR-group/EvObj

2605.13151 2026-05-14 cs.CV 版本更新

GenCape: Structure-Inductive Generative Modeling for Category-Agnostic Pose Estimation

Jiyong Rao, Yu Wang, Shengjie Zhao

发表机构 * School of Computer Science and Technology, Tongji University（同济大学计算机科学与技术学院）

AI总结 GenCape 是一种面向类别无关姿态估计（CAPE）的生成式框架，旨在仅使用少量标注的支持样本，对任意类别的图像中的关键点进行定位。该方法通过图像支持输入自动推断关键点之间的关系，无需额外的文字描述或预定义的骨骼结构，克服了传统方法对人工标注的依赖和结构灵活性差的问题。GenCape 包含一个迭代结构感知变分自编码器和一个组合图转移模块，能够有效捕捉实例级别的结构信息，并在不同类别间实现语义对齐，实验表明其在少样本设置下优于现有基于图支持和文本支持的方法。

Comments Accepted in ICLR 2026

2605.13148 2026-05-14 cs.LG cs.CV 版本更新

Understanding Generalization through Decision Pattern Shift

Huiqi Deng, Yibo Li, Quanshi Zhang, Peng Zhang, Hongbin Pei, Xia Hu

发表机构 * Xi’an Jiaotong University（西安交通大学）； Shanghai Jiao Tong University（上海交通大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）

AI总结本文研究深度神经网络在未见样本上泛化失败的原因，提出了一种新的分析视角——决策模式偏移（DPS）。该方法通过分析模型内部决策模式的稳定性，量化其在训练与测试阶段的偏差，从而衡量泛化性能。研究发现，决策模式在类别间具有高度结构化和一致性，且其变化程度与泛化差距呈强线性相关，为理解不同泛化失败场景提供了统一的解释框架。

Comments 14pages, 12figures, computer vision and pattern recognition

2605.13146 2026-05-14 stat.ML cs.CV cs.LG 版本更新

On Hallucinations in Inverse Problems: Fundamental Limits and Provable Assessment Methods

David Iagaru, Nina M. Gottschling, Anders C. Hansen, Josselin Garnier

发表机构 * Gauss Centre for Supercomputing e.V.（Gauss超级计算中心）； John von Neumann Institute for Computing（约翰·冯·诺依曼计算研究所）； Deutsches Zentrum für Luft und Raumfahrt（德国航空航天中心）； Laboratory Directed Research and Development Program of Oak Ridge National Laboratory（橡树岭国家实验室定向研究与开发计划）； UT-Battelle, LLC（UT-巴特尔公司）； Computing and Computational Sciences, Oak Ridge National Laboratory（橡树岭国家实验室计算与计算科学部）； DAMTP, University of Cambridge（剑桥大学DAMTP）

AI总结本文研究了逆问题中的“幻觉”现象，即人工智能模型生成的看似合理但实际错误的细节。作者提出了一种理论框架，揭示这类幻觉不仅源于模型本身，更可能源于逆问题本身的病态特性，并推导出幻觉产生的充要条件及仅依赖于前向模型的可计算界。基于该理论，文章提出了两种算法，分别用于估计最小幻觉幅度和评估重建细节的可信度，实验表明该方法适用于多种成像任务和生成模型，为量化和评估AI幻觉提供了理论依据。

Comments 31 pages, 11 figures; code available at https://github.com/davidiagraid/hallucinations_invpb

2605.13140 2026-05-14 cs.CV 版本更新

Multi-Modal Guided Multi-Source Domain Adaptation for Object Detection

Sangin Lee, Seokjun Kwon, Jeongmin Shin, Namil Kim, Yukyung Choi

发表机构 * Sejong University（世宗大学）； NAVER LABS（NAVER实验室）； Artificial Intelligence and Robotics Institute (AIRI)（人工智能与机器人研究所（AIRI））

AI总结该论文研究了多源领域自适应下的目标检测问题，旨在提升模型在目标领域中检测性能，特别是在训练数据分布与目标领域存在差异的情况下。为了解决现有方法在学习领域无关特征时无法有效保留领域特定信息的问题，作者提出了MS-DePro方法，结合深度图和文本提示，分别用于引导目标定位和分类特征对齐。该方法在多个基准测试中取得了最先进的性能，验证了其有效性。

2605.13129 2026-05-14 cs.GR cs.CV 版本更新

Rigel3D: Rig-aware Latents for Animation-Ready 3D Asset Generation

Nikitas Chatzis, Marios Loizou, Evangelos Kalogerakis

发表机构 * Technical University of Crete（希腊克里特技术大学）； CYENS Center of Excellence（CYENS卓越中心）； University of Massachusetts Amherst（马萨诸塞大学阿姆赫斯特分校）

AI总结 Rigel3D 是一种生成可用于动画的 3D 资产的生成方法，解决了现有 3D 生成模型输出缺乏骨骼结构、关节层次和蒙皮权重的问题。该方法通过耦合的表面与骨骼结构化潜在表示，联合建模几何形状与骨骼结构，并利用一个骨骼感知的自编码器生成网格、骨骼拓扑、关节坐标和蒙皮权重。此外，Rigel3D 还引入了开放词汇的关节标注模块，支持生成的关节与任意重定向模板的对应，实验表明其在多个指标上优于现有方法，能够生成高质量且多样化的动画就绪 3D 资产。

2605.13122 2026-05-14 cs.CV 版本更新

Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation

Jingxuan He, Xiyu Wang, Yunke Wang, Mengyu Zheng, Chang Xu

发表机构 * The University of Sydney（悉尼大学）

AI总结本文研究了基于指令的图像编辑模型在零样本参照图像分割任务中的语义定位能力。通过分析发现，这些模型在去噪过程的早期阶段已能生成具有强前景-背景可分性的内部表示，从而隐含实现了语言条件下的语义定位。基于此，作者提出了一种无需训练的框架，利用预训练图像编辑模型的中间表示，将分割任务分解为空间注意力和语义判别两个部分，实现了无需完整图像生成即可获得高精度分割掩码的方法，并在多个数据集上取得了优于现有零样本方法的性能。

2605.13119 2026-05-14 cs.RO cs.AI cs.CV 版本更新

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

Zixing Lei, Changxing Liu, Yichen Xiong, Minhao Xiong, Yuanzhuo Ding, Zhipeng Zhang, Weixin Li, Siheng Chen

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Zhongguancun Academy（中关村学院）； Beihang University（北京航空航天大学）

AI总结该研究旨在解决视觉-语言-动作（VLA）模型在长期任务中执行能力受限的问题，提出了一种将高层视觉语言模型与专用工具型VLA模块相结合的新策略。通过引入工具对齐的后训练方法（TAPT）和工具族接口，实现了高效的长期任务规划与执行协同，显著提升了机器人在复杂环境中的任务完成率和指令遵循精度。

2605.13111 2026-05-14 cs.CV 版本更新

Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation

Jiayu Chen, Junbei Tang, Wenbiao Zhao, Maoliang Li, Jiayi Luo, Zihao Zheng, Jiawei Yang, Guojie Luo, Xiang Chen

发表机构 * Peking University（北京大学）； South China University of Technology（华南理工大学）； Xinjiang University（新疆大学）； Beihang University（北京航空航天大学）； Zhongguancun Academy（中关村学院）

AI总结本文提出了一种名为Pyramid Forcing的头部感知金字塔KV缓存策略，用于提升高质量长视频生成的效果。该方法通过分析不同注意力头的历史帧关注模式，识别出三种具有不同特性的头类型，并据此设计差异化的缓存策略，从而有效缓解长期误差累积导致的退化问题。实验表明，该方法在多个指标上显著提升了长时序视频生成的质量。

2605.13108 2026-05-14 cs.CV 版本更新

Flow Augmentation and Knowledge Distillation for Lightweight Face Presentation Attack Detection

Muhammad Shahid Jabbar, Muhammad Sohail Ibrahim, Taha Hasan Masood Siddique, Kejie Huang, Shujaat Khan

发表机构 * SDAIA-KFUPM Joint Research Center for Artificial Intelligence（SDAIA-KFUPM联合人工智能研究中心）； King Fahd University of Petroleum & Minerals（国王法赫德石油大学）； Interdisciplinary Research Center for Intelligent Secure Systems (IRC-ISS)（智能安全系统跨学科研究中心）； College of Information Science & Electronic Engineering（信息科学与电子工程学院）； Department of Computer Engineering, College of Computing and Mathematics（计算机工程系，计算与数学学院）

AI总结本文研究了在复杂攻击方式和多变采集条件下实现轻量级人脸活体检测（FacePAD）的问题，提出了一种结合光流增强和知识蒸馏的方法。通过训练时引入光流信息增强运动表征，推理时无需计算光流，同时设计了一个双分支教师模型融合外观与运动线索，并利用知识蒸馏将运动感知知识传递给轻量的学生模型，显著提升了检测性能并降低了计算开销。实验表明，该方法在多个基准数据集上取得了优异的检测效果，并能在嵌入式设备上实现每秒52帧的实时检测。

Comments Accepted at 2026 International Conference on Automatic Face and Gesture Recognition (FG)

2605.13093 2026-05-14 cs.CV 版本更新

RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering

Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu

发表机构 * Australian National University（澳大利亚国立大学）； NVIDIA

AI总结 RoSplat 是一种鲁棒的前馈像素级高斯点绘方法，旨在解决在输入视角变化和高分辨率渲染时出现的过亮和孔洞伪影问题。该方法通过引入像素级的 alpha 归一化策略和基于三维采样的辅助正则化器，有效提升了高斯尺度估计的准确性与渲染一致性。实验表明，RoSplat 在多个基准数据集上显著优于现有方法，尤其在输入视角变化和高分辨率场景下表现优异。

2605.13080 2026-05-14 cs.CV 版本更新

Learning to See What You Need: Gaze Attention for Multimodal Large Language Models

Junha Song, Byeongho Heo, Geonmo Gu, Jaegul Choo, Dongyoon Han, Sangdoo Yun

发表机构 * NAVER AI Lab（NAVER AI实验室）

AI总结本文研究了多模态大语言模型在视觉描述任务中如何更高效地关注图像关键区域的问题。作者提出了一种新的注意力机制——Gaze Attention，通过将视觉嵌入分组为紧凑的注视区域，并动态选择与任务相关的区域进行注意力计算，从而减少冗余计算并提升聚焦效果。此外，为保持全局上下文信息，作者还引入了可学习的上下文标记。实验表明，该方法在图像和视频理解任务中表现优异，且显著降低了视觉键值对的使用量。

2605.13062 2026-05-14 cs.CV 版本更新

Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

Xuehai Bai, Yang Shi, Yi-Fan Zhang, Xuanyu Zhu, Yuran Wang, Yifan Dai, Xinyu Liu, Yiyan Ji, Xiaoling Gu, Yuanxing Zhang

发表机构 * HDU（杭州大学）； PKU（北京大学）； Kling Team（Kling团队）； CASIA（中国科学院自动化研究所）

AI总结近年来，图像编辑模型在指令理解、多模态感知和复杂视觉编辑方面取得了显著进展，但现有基准测试难以准确反映人类判断，尤其在评估前沿模型时存在任务难度有限和评价方式粗粒度的问题。为解决这一问题，本文提出Edit-Compass和EditReward-Compass，一个统一的图像编辑与奖励模型评估基准。Edit-Compass包含2,388个精细标注的样本，涵盖六个逐步提升难度的任务类别，采用多维细粒度评价框架；EditReward-Compass则包含2,251个偏好对，用于模拟实际强化学习中的奖励建模场景，为模型评估提供了更真实可靠的依据。

2605.13059 2026-05-14 cs.CV 版本更新

BrainAnytime: Anatomy-Aware Cross-Modal Pretraining for Brain Image Analysis with Arbitrary Modality Availability

Guangqian Yang, Tong Ding, Wenlong Hou, Yue Xun, Ye Du, Qian Niu, Shujun Wang

发表机构 * Department of Biomedical Engineering, The Hong Kong Polytechnic University, Hong Kong SAR, China（生物医学工程系，香港理工大学，香港特别行政区，中国）； Department of Technology Management for Innovation, The University of Tokyo, Japan（创新技术管理系，东京大学，日本）； Department of Data Science and Artificial Intelligence, The Hong Kong Polytechnic University, Hong Kong SAR, China（数据科学与人工智能系，香港理工大学，香港特别行政区，中国）

AI总结本文提出了一种名为BrainAnytime的统一预训练框架，用于处理在任意模态可用情况下的脑影像分析任务。该方法通过跨模态蒸馏和基于图谱的课程掩码技术，在共享的三维掩码自编码器中学习MRI与PET之间的结构-分子对应关系，并关注疾病易感解剖区域。实验表明，BrainAnytime在多种临床模态设置下显著优于现有模型，尤其在阿尔茨海默病分类任务中提升了平均准确率。

Comments Early accepted by MICCAI 2026

2605.13049 2026-05-14 cs.CV 版本更新

Uncertainty-aware Spatial-Frequency Registration and Fusion for Infrared and Visible Images

Xingyuan Li, Haoyuan Xu, Xingyue Zhu, Jun Ma, Yang Zou, Zhiying Jiang, Jinyuan Liu

发表机构 * Dalian University of Technology（大连理工大学）； Northwestern Polytechnical University（西北工业大学）； Dalian Maritime University（大连海事大学）

AI总结红外与可见光图像融合（IVIF）在复杂环境下具有广泛应用，但未对齐条件下的融合面临固有的错位问题。现有方法多采用粗到细的变形参数预测或多尺度变形场估计，却忽视了注册过程中的累积误差，影响融合质量。本文提出了一种融合空间-频率域注册与融合的SFRF框架，通过引入不确定性估计和红外热辐射分布一致性，统一处理注册误差累积问题，提升跨空间与频率域的融合鲁棒性。该方法通过多尺度迭代注册和双分支空间-频率融合模块，实现了更精确的对齐与更高质量的图像重建。

Comments 10 pages, 5 figures, 4 tables

2605.13047 2026-05-14 cs.CV cs.AI 版本更新

Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency

Ziqi Wen, Parsa Madinei, Miguel P. Eckstein

发表机构 * Department of Computer Science, University of California, Santa Barbara（加州大学圣巴巴拉分校计算机科学系）； Department of Psychological and Brain Sciences, University of California, Santa Barbara（加州大学圣巴巴拉分校心理学与脑科学系）

AI总结该研究探讨了视觉语言模型（VLM）在高层次语义场景理解方面与人类感知的差异。为此，作者提出了一种黑盒、模型无关的方法——反事实语义显著性（CSS），通过衡量物体在场景中被移除后引起的语义变化，量化其重要性。实验结果表明，VLM在理解场景时表现出对大物体、画面中心物体和高显著性物体的过度依赖，而对场景中人物的依赖则低于人类，揭示了模型与人类在语义理解上的显著差距。

2605.13041 2026-05-14 cs.CV 版本更新

EgoForce: Robust Online Egocentric Motion Reconstruction via Diffusion Forcing

Inwoo Hwang, Donggeun Lim, Hojun Jang, Young Min Kim

发表机构 * Seoul National University（首尔国立大学）

AI总结 EgoForce 是一种用于从噪声的自中心视角输入中在线重建长期全身运动的框架。该方法采用基于扩散的模型，并引入时间非对称的噪声调度策略，以应对实时应用中稀疏和噪声观测的挑战。通过建模时间演化的不确定性并逐步去噪，EgoForce 在严格因果约束下生成稳定且连贯的全身运动，实验表明其在复杂自中心场景中优于现有在线和离线方法。

Comments Project page: https://inwoohwang.me/EgoForce

2605.13038 2026-05-14 cs.CV cs.AI 版本更新

CoGE: Sim-to-Real Online Geometric Estimation for Monocular Colonoscopy

Liangjing Shao, Beilei Cui, Hongliang Ren

发表机构 * Department of Electronic Engineering, The Chinese University of Hong Kong, Hong Kong SAR, China（香港中文大学电子工程系，香港特别行政区，中国）； Shenzhen Loop Area Institute, China（深圳环湖研究所，中国）

AI总结本文提出CoGE，一种用于结肠镜检查的单目在线几何估计框架，旨在解决实际场景中深度估计和场景重建的难题。该方法通过引入基于Retinex理论的光照感知监督模块和基于小波分解的结构感知感知模块，有效应对结肠镜场景中的光照差异和结构特征提取问题。实验表明，仅使用模拟数据训练的CoGE在模拟和真实场景中均取得了最先进的几何估计性能。

Comments Early Accepted by MICCAI 2026

2605.13034 2026-05-14 cs.CV cs.IR 版本更新

ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence

Zhuofan Shi, Peilun Jia, Baoqin Sun, Haiyang Shen, Sixiong Xie, Yun Ma, Xiang Jing

发表机构 * School of Software and Microelectronics, Peking University（北京大学软件与微电子学院）； National Key Laboratory of Data Space Technology and System（数据空间技术与系统国家重点实验室）； School of Software Engineering, Beijing Jiaotong University（北京交通大学软件学院）； College of Computer Science and Electronic Engineering, Hunan University（湖南大学计算机科学与电子工程学院）

AI总结 ViDR 是一种多模态深度研究框架，旨在通过源图示作为证据来生成内容详实且有依据的研究报告。该方法将源图示视为可检索、可解释、可追踪和可验证的证据对象，并结合上下文感知过滤、大纲感知重排序和视觉语言模型分析等技术，提升图示证据的准确性和相关性。ViDR 还引入了 MMR Bench+ 评估基准，实验证明其在报告质量、图示整合和可验证性方面优于现有主流模型，凸显了源视觉证据在多模态深度研究中的重要性。

2605.13027 2026-05-14 cs.CV 版本更新

PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

Zihang Xu, Xiaoyang Liu, Zheng Chen, Yulun Zhang, Xiaokang Yang

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出了一种基于扩散模型的文本图像超分辨率方法PRISM，旨在解决在严重退化情况下文本细节生成中的可靠性与结构准确性问题。该方法通过引入流匹配先验校正（FMPR）和结构引导的不确定性感知残差编码器（SURE），分别提升全局文本先验的可靠性与局部笔画边界的精确性。实验表明，PRISM在合成和真实数据集上均取得了最先进的性能，且推理速度达到毫秒级。

Comments Code is available at https://github.com/faithxuz/PRISM

2605.13018 2026-05-14 cs.CV 版本更新

OCH3R: Object-Centric Holistic 3D Reconstruction

Yi Du, Yang You, Xiang Wan, Leonidas Guibas

发表机构 * Stanford University（斯坦福大学）

AI总结 OCH3R 是一种面向对象的统一三维重建框架，能够从单张RGB图像中同时预测场景中所有物体的6D姿态及其详细三维重建结果。其核心方法基于一种变压器架构，通过预测每个像素的类别嵌入、度量深度、归一化物体坐标（NOCS）以及每个物体的固定数量的三维高斯分布，实现端到端的一次性推理。该方法通过将预测的高斯分布转换到规范空间并与预渲染的真值对齐，避免了高昂的逐图像标注成本，显著提升了重建精度与推理效率。

2605.13015 2026-05-14 eess.IV cs.CV cs.LG 版本更新

A General Bézier Tree Encoding Counterfactual Framework for Retinal-Vessel-Mediated Disease Analysis

Tan Su, Ethan Elio Meidinger, Lin Gu, Ruogu Fang

发表机构 * Department of Electronic and Electrical Engineering（电子与电气工程系）； School of Data Science（数据科学学院）； Research Institute of Electrical Communication（电气通信研究所）； J. Crayton Pruitt Family Department of Biomedical Engineering（姜·克雷顿·普瑞特家庭生物医学工程系）

AI总结该研究提出了一种基于Bézier曲线树编码的反事实框架（BTECF），用于分析视网膜血管结构与全身性疾病的因果关系。该方法将视网膜血管网络抽象为连接的立方Bézier曲线段，从而在保持血管拓扑结构的同时实现对几何特征（如弯曲度、管径）的原子级干预。通过结合扩散生成模型，BTECF能够在不破坏背景纹理的前提下，对血管结构进行可控的反事实生成，并在糖尿病视网膜病变、缺血性中风和阿尔茨海默病等疾病中验证了其有效性，为跨疾病的因果假设验证提供了统一的生成范式。

Comments 33 pages, 6 figures; preprint

2605.13010 2026-05-14 cs.CV cs.AI cs.SY eess.SY math.OC 版本更新

Amortized Guidance for Image Inpainting with Pretrained Diffusion Models

Yilie Huang, Xun Yu Zhou

发表机构 * Department of Industrial Engineering and Operations Research, Columbia University, New York, NY 10027, USA（工业工程与运筹学系，哥伦比亚大学，纽约，NY 10027，美国）； Department of Industrial Engineering and Operations Research & Data Science Institute, Columbia University, New York, NY 10027, USA（工业工程与运筹学系及数据科学研究所，哥伦比亚大学，纽约，NY 10027，美国）

AI总结本文研究了基于生成扩散模型的图像修复问题，提出了一种名为AID的方法，在保持预训练扩散模型主干不变的前提下，通过离线训练一个小型可复用的引导模块，实现对多张掩码图像的高效修复。该方法将问题建模为带有监督终端目标的确定性引导问题，并通过引入辅助高斯形式，推导出一种可在高维空间中学习的随机化问题求解方案，从而设计出一种基于数据驱动的连续时间策略-价值算法。实验表明，AID在多个数据集和掩码类型上均优于现有固定主干和摊销修复方法，在修复质量与速度之间取得了更好的平衡。

2605.12967 2026-05-14 cs.CV 版本更新

ImageAttributionBench: How Far Are We from Generalizable Attribution?

Tingshu Mou, Zhipeng Wei, Chao Gong, Jingjing Chen, Xingjun Ma

发表机构 * Fudan University（复旦大学）； University of California, Berkeley（加州大学伯克利分校）

AI总结随着生成式AI的快速发展，合成图像的逼真度和多样性不断提高，给图像来源识别和虚假信息检测带来了严峻挑战。为此，本文提出ImageAttributionBench，一个包含多种先进生成模型合成图像的综合性数据集，旨在推动更具鲁棒性和泛化能力的图像归属方法研究。实验表明，当前主流归属方法在该数据集上的表现较差，揭示了其在面对语义变化和图像退化时的局限性，为未来研究提供了严格的评估基准。

2605.12957 2026-05-14 cs.CV 版本更新

GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion

Hanxin Zhu, Cong Wang, Peiyan Tu, Jiayi Luo, Tianyu He, Xin Jin, Zhibo Chen

发表机构 * College of Information Science and Electronic Engineering, Zhejiang University（浙江大学信息科学与电子工程学院）

AI总结本文提出了一种名为GTA的新型图像到3D世界生成方法，采用“几何优先、再渲染外观”的策略，以提升生成场景的结构准确性和跨视角一致性。该方法通过两个阶段的视频扩散模型，首先生成粗略的几何结构，再基于预测的几何信息合成精细的外观细节。此外，研究引入了随机潜在码打乱策略和测试时缩放方案，进一步提升了生成质量与感知一致性。实验表明，GTA在保真度、视觉质量及几何精度方面优于现有方法，并可作为通用增强模块提升现有生成流程的效果。

2605.12954 2026-05-14 cs.CV cs.AI 版本更新

AdaFocus: Adaptive Relevance-Diversity Sampling with Zero-Cache Look-back for Efficient Long Video Understanding

Xiao Yang, Yingzhe Ma, Haoxuan Yu, Zixin Li, Ning Qin

发表机构 * University of Electronic Science and Technology of China（电子科技大学）

AI总结 AdaFocus 是一种高效的长视频理解框架，旨在解决传统方法在时间覆盖、视觉细节与计算效率之间难以平衡的问题。该方法通过自适应相关性-多样性采样和零缓存回溯机制，实现对视频内容的渐进式证据获取，既减少了内存和计算开销，又保留了关键视觉细节。实验表明，AdaFocus 在多个基准数据集上实现了比现有方法更优的效率与精度平衡，显著提升了长视频理解任务的性能。

Comments 9 pages, 4 figures. Authors Xiao Yang and Yingzhe Ma contributed equally

详情

英文摘要

Long video understanding is heavily bottlenecked by a rigid one-shot paradigm: existing methods either densely encode videos at prohibitive memory and latency costs, or aggressively compress them into sparse frame sets that irreversibly discard fine-grained evidence needed for downstream reasoning. Consequently, current models struggle to simultaneously balance temporal coverage, visual details, and computational efficiency. We propose AdaFocus, an efficient framework that rethinks long-video understanding as progressive evidence acquisition rather than one-pass encoding. AdaFocus relies on two tightly coupled components. First, a Query-Aware Adaptive Relevance-Diversity sampler (AdaRD) produces a compact yet informative video preview, adaptively switching to global clustering when the query lacks reliable local grounding. Second, instead of caching exhaustive frame sequences in memory, AdaFocus introduces an uncertainty-triggered refinement mechanism. It performs targeted look-back only when the model is not confident, retrieving high-resolution evidence directly from disk via a zero-cache I/O design. This turns discarded visual details from an irreversible loss into on-demand recoverable evidence without paying the cost of exhaustive preloading. Experiments on seven standard long-video benchmarks show that AdaFocus delivers a substantially better efficiency-accuracy trade-off than strong baselines. Compared with conventional dense encoding, AdaFocus achieves improved task performance (e.g., +2.59 accuracy on VideoMME, +8.39 mIoU on Charades-STA over single-pass inference) while reducing visual token consumption by ~33x and eliminating the need for in-memory frame pre-caching through its zero-cache disk retrieval design. These findings suggest that progressive preview combined with zero-cache evidence refinement is a highly effective paradigm for scalable multimedia reasoning.

URL PDF HTML ☆

赞 0 踩 0

2605.12953 2026-05-14 cs.CV cs.AI 版本更新

Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation

Chao Hao, Jun Xu, Ji Du, Shuo Ye, Ziyue Qiao, Xiaodong Cun, Guangcong Wang, Xubin Zheng, Zitong Yu

发表机构 * School of Computing and Information Technology（计算与信息科技学院）； Great Bay University（大湾大学）； Hangzhou International Innovation Institute（杭州国际创新研究院）； Beihang University（北航大学）； Department of Computing（计算系）； The Hong Kong Polytechnic University（香港理工大学）

AI总结本文提出了一种名为Seg-Agent的全新训练-free语言引导分割框架，旨在解决传统方法依赖大量训练数据的问题。该方法通过构建显式的多模态推理循环，使大型语言模型能够在视觉域内进行交互式推理，从而直接生成和优化分割结果。此外，研究还引入了Various-LangSeg基准，用于全面评估模型在不同场景下的泛化能力，实验表明Seg-Agent在无需参数更新的情况下即可达到先进训练方法的性能水平。

2605.12952 2026-05-14 cs.CV 版本更新

Debunking Grad-ECLIP: A Comprehensive Study on Its Incorrectness and Fundamental Principles for Model Interpretation

Yongjin Cui, Xiaohui Fan

发表机构 * Zhejiang University（浙江大学）

AI总结本文对ICML 2024发表的Grad-ECLIP方法进行了全面分析，指出其并非基于中间特征的全新技术路线，而是与现有的注意力机制解释方法等价，且计算更为简洁。研究进一步揭示了Grad-ECLIP方法的缺陷，表明其生成的模型解释结果与原模型实际行为不一致，并提出了模型解释应遵循的两个基本原则，以避免类似错误。

2605.12939 2026-05-14 cs.CV 版本更新

DirectTryOn: One-Step Virtual Try-On via Straightened Conditional Transport

Xianbing Sun, Jiahui Zhan, Liqing Zhang, Jianfu Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出了一种名为DirectTryOn的一站式虚拟试穿方法，通过直角条件传输实现高效生成。该方法基于对虚拟试穿任务条件约束特性的观察，提出通过纯条件传输、服装保持损失和自一致性损失等改进，引导生成过程更加直接，从而实现单步生成。实验表明，该方法在保证生成质量的同时显著降低了推理成本，达到了当前最先进的性能。

2605.12938 2026-05-14 cs.CV cs.AI cs.LG 版本更新

CRePE: Curved Ray Expectation Positional Encoding for Unified-Camera-Controlled Video Generation

Seonghyun Jin, Youngmin Kim, Sunwoo Park, Jong Chul Ye

发表机构 * Graduate School of AI（人工智能研究生院）

AI总结该论文提出了一种名为CRePE的曲光线期望位置编码方法，用于统一相机控制的视频生成。针对现有方法在处理广角和鱼眼镜头等复杂相机配置时的不足，CRePE通过引入深度感知的位置分布，捕捉由宽视角相机引起的投影路径几何特性，从而提升相机控制的稳定性和生成质量。该方法结合几何注意力适配器和单目几何基础模型进行伪监督，实现了对多种相机模型的有效支持，并在多个几何感知和感知质量指标上表现出色。

Comments 17 pages, 8 figures, Under review

2605.12937 2026-05-14 cs.CV cs.AI cs.HC 版本更新

AuraMask: An Extensible Pipeline for Developing Aesthetic Anti-Facial Recognition Image Filters

Jacob Lagogiannis, William Agnew, Rosa I. Arriaga, Sauvik Das

发表机构 * Franklin and Marshall College（弗兰克林与马歇尔学院）； Carnegie Mellon University（卡内基梅隆大学）； Georgia Institute of Technology（佐治亚理工学院）

AI总结本文提出了一种名为 AuraMask 的可扩展管道，用于开发既具有对抗性效果又符合审美要求的反人脸识别图像滤镜。该方法通过模仿流行的 Instagram 一键滤镜，生成了 40 种视觉上美观的滤镜，并在对抗开源人脸识别模型方面表现出优于现有方法的效果。实验表明，这些滤镜在用户接受度上也显著高于以往方法，为隐私保护技术的进一步研究提供了有效工具。

Comments 21 pages, 10 figures

2605.12927 2026-05-14 cs.CR cs.CV cs.HC 版本更新

ThermalTap: Passive Application Fingerprinting in VR Headsets via Thermal Side Channels

Mahsin Bin Akram, A H M Nazmus Sakib, OFM Riaz Rahman Aranya, Raveen Wijewickrama, Kevin Desai, Murtuza Jadliwala

发表机构 * Meta ； HTC

AI总结本文提出了一种名为ThermalTap的被动非接触式侧信道攻击方法，通过VR头显外壳发出的长波红外辐射，远程识别正在运行的VR应用，无需任何设备交互或恶意软件执行。该方法将头显的热信号作为内部计算负载的高保真代理，结合环境传感器数据消除噪声干扰，实现了在室内外环境下对多种VR应用的高精度识别。研究揭示了热辐射作为沉浸式系统中不可忽视的隐私风险，暴露了现有软件防护和物理访问控制难以覆盖的安全漏洞。

2605.12919 2026-05-14 cs.CV 版本更新

GuardMarkGS: Unified Ownership Tracing and Edit Deterrence for 3D Gaussian Splatting

Utae Jeong, Jaewan Choi, Junseok Lee, Jongheon Jeong, Sang Ho Yoon, ByoungSoo Koh, Sangpil Kim

发表机构 * Korea University（韩国大学）； KAIST（韩国科学技术院）； Hanshin University（汉西大学）

AI总结本文提出了一种名为 GuardMarkGS 的统一保护框架，旨在解决 3D Gaussian Splatting（3DGS）资产在版权归属追踪与防止未经授权编辑之间的双重风险。该方法结合了全局水印优化与对抗性编辑抑制策略，通过分离潜在特征、扰动编辑轨迹以及选择性增强对抗更新，实现了版权归属可追溯与编辑行为有效遏制的双重目标。实验表明，该框架在保持渲染质量的同时，有效平衡了水印准确性与编辑抑制效果。

Comments Preprint

2605.12917 2026-05-14 cs.CV cs.LG 版本更新

Adaptive Conformal Prediction for Reliable and Explainable Medical Image Classification

One Octadion, Novanto Yudistira, Lailil Muflikhah

发表机构 * Faculty of Computer Science, Universitas Brawijaya（博雅大学计算机科学学院）

AI总结该研究针对医学图像分类中深度学习模型过度自信的问题，提出了一种自适应的置信度预测方法，以提高诊断的可靠性和可解释性。通过改进RAPS方法，引入自适应Lambda准则，有效控制预测集的覆盖偏差，确保在不同输入难度下均保持较高的覆盖性能。实验表明，该方法在多个医学图像数据集上实现了高覆盖率与小预测集大小的平衡，且具有良好的跨领域泛化能力，适用于对安全性要求高的医疗AI应用。

Comments To appear in IEA/AIE 2026 (Springer LNAI)

2605.12882 2026-05-14 cs.CL cs.CV 版本更新

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

Dongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang, Wentao Zhang, Bin Wang, Conghui He

发表机构 * Peking University（北京大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）

AI总结 CiteVQA 是一个用于评估可信文档智能的新型基准，旨在解决当前文档问答系统中忽视证据溯源的问题。该基准要求模型在回答问题的同时提供具体的引用区域，从而同时评估答案的正确性和引用的准确性。通过引入严格归因准确率（SAA）指标，CiteVQA 揭示了现有大型语言模型在答案正确但引用错误方面的普遍问题，为提升文档理解系统的可靠性提供了新的评估工具。

2605.12855 2026-05-14 cs.CV 版本更新

Prediction of Rectal Cancer Regrowth from Longitudinal Endoscopy

Jorge Tapias Gomez, Despoina Kanata, Aneesh Rangnekar, Christina Lee, Hannah Williams, Hannah Thompson, J. Joshua Smith, Francisco Sanchez-Vega, Mert R. Sabuncu, Julio Garcia-Aguilar, Harini Veeraraghavan

发表机构 * Department of Medical Physics, Memorial Sloan Kettering Cancer Center（医学物理部，纪念斯隆凯特勒癌症中心）； School of Computer Science, Cornell University and Cornell Tech（计算机科学学院，康奈尔大学和康奈尔科技）； Department of Surgery, Colorectal Service, Memorial Sloan Kettering Cancer Center（外科部，结直肠服务，纪念斯隆凯特勒癌症中心）； Department of Radiology, Weill Cornell Medical College（放射科，韦尔医学院）； School of Electrical and Computer Engineering, Cornell University and Cornell Tech（电气与计算机工程学院，康奈尔大学和康奈尔科技）

AI总结该研究提出了一种基于纵向内镜图像的深度学习方法TREX，用于预测接受“观察等待”治疗的直肠癌患者肿瘤的复发情况。TREX通过结合治疗后复查和随访期间的图像，利用双交叉注意力机制和预训练的Swin Transformer模型，在无需图像配准的情况下提取并融合特征，从而区分完全缓解与局部复发。实验表明，TREX在复发检测和早期预警方面均优于现有方法，并在临床验证中表现出与专业医生相当的诊断准确性。

Comments 14 Pages, 9 figures, 2 tables

2605.12851 2026-05-14 cs.CV cs.AI 版本更新

PRISM: Perinuclear Ring-based Image Segmentation Method for Acute Lymphoblastic Leukemia Classification

Larissa Ferreira Rodrigues Moreira, Leonardo Gabriel Ferreira Rodrigues, Rodrigo Moreira, André Ricardo Backes

发表机构 * Institute of Exact and Technological Sciences（精确与技术科学研究所）； Federal University of Viçosa（弗雷塔斯联邦大学）； School of Computer Science（计算机科学学院）； Federal University of Uberlândia（伯南布哥联邦大学）； Departament of Computing（计算系）； Federal University of São Carlos（萨o卡洛斯联邦大学）

AI总结该研究针对急性淋巴细胞白血病（ALL）分类中外周血涂片图像分析的挑战，提出了一种基于核周环的图像分割方法PRISM。该方法通过围绕细胞核构建自适应同心区域，替代传统的细胞质轮廓分割，从而在无需精确细胞边界检测的情况下提取鲁棒的细胞质特征。实验表明，该方法结合传统分类器的校准集成，在分类准确率和AUC指标上均表现出色，分别达到98.46%和0.9937。

Comments Paper accepted for publication at the XXVI Simpósio Brasileiro de Computação Aplicada à Saúde (SBCAS 2026), Ouro Preto, MG, Brazil

2605.12845 2026-05-14 cs.CV cs.AI 版本更新

AssemblyBench: Physics-Aware Assembly of Complex Industrial Objects

Danrui Li, Jiahao Zhang, Bernhard Egger, Moitreya Chatterjee, Suhas Lohit, Tim K. Marks, Anoop Cherian

发表机构 * Rutgers, The State University of New Jersey（新泽西罗格斯大学）； The Australian National University（澳大利亚国立大学）； Friedrich-Alexander-Universität Erlangen-Nürnberg（埃尔兰根-纽伦堡弗里德里希-亚历山大大学）； Mitsubishi Electric Research Laboratories (MERL)（三菱电机研究实验室）

AI总结本文提出AssemblyBench，一个包含2,789个工业对象的合成数据集，包含多模态装配说明、对应的3D部件模型及装配轨迹，旨在解决工业装配中复杂形状和装配路径的问题。研究还提出基于Transformer的模型AssemblyDyno，能够联合预测装配顺序和部件轨迹，相比现有方法在装配姿态估计和轨迹可行性方面表现更优，其中轨迹可行性通过物理仿真进行评估。

Comments Accepted at CVPR 2026

2605.12826 2026-05-14 cs.CV cs.AI 版本更新

FRAME: Forensic Routing and Adaptive Multi-path Evidence Fusion for Image Manipulation Detection

Kaixiang Zhao, Tianrun Yu, Aoxu Zhang, Junhao Su, Porter Jenkins, Amanda Hughes

发表机构 * Brigham Young University ； Rutgers University

AI总结随着图像编辑工具和生成式人工智能的普及，数字图像的真实性验证变得愈发困难。为了解决现有方法在鲁棒性、证据碎片化和泛化能力方面的不足，本文提出了一种名为FRAME的新方法，通过多路径分析空间组织多种取证算法，自适应选择适合的取证路径并融合互补证据，从而提升检测与定位性能。FRAME在保持多源取证线索可解释性的基础上，提供了更稳健且灵活的图像取证方案，并在多种篡改场景中展现出良好的效果。

Comments Accepted to CVPR 2026 SAFE Workshop

2605.12778 2026-05-14 cs.GR cs.CV 版本更新

Generative Motion In-betweening by Diffusion over Continuous Implicit Representations

Shiyu Fan, Paul Henderson, Edmond S. L. Ho

发表机构 * School of Computing Science, University of Glasgow（格拉斯哥大学计算机科学学院）

AI总结本文提出了一种基于连续隐式表示的扩散模型新方法，用于生成高质量的运动中间帧。该方法通过在潜在空间中建立隐式神经表示与稀疏时空信息之间的映射，能够在仅有极少关键帧的情况下生成平滑且多样化的运动序列。实验表明，该方法在保持关键帧准确性的同时显著提升了运动生成的质量。

2605.12774 2026-05-14 cs.CV 版本更新

WildPose: A Unified Framework for Robust Pose Estimation in the Wild

Jianhao Zheng, Liyuan Zhu, Zihan Zhu, Iro Armeni

发表机构 * Stanford University（斯坦福大学）； ETH Zürich（苏黎世联邦理工学院）

AI总结本文提出了一种名为WildPose的统一单目姿态估计框架，旨在解决动态环境下相机姿态估计这一关键挑战。该方法结合了前馈模型的丰富感知能力和端到端优化的微分捆绑调整，通过冻结预训练的MASt3R特征主干构建3D感知更新算子，并引入高容量的运动掩码检测器，实现了在动态、静态及低自运动场景下的鲁棒性能。实验表明，WildPose在多个基准数据集上均优于现有方法。

2605.12772 2026-05-14 cs.CV 版本更新

Just Ask for a Table: A Thirty-Token User Prompt Defeats Sponsored Recommendations in Twelve LLMs

Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer

发表机构 * Pattern Recognition Lab, Friedrich-Alexander-Universit\"at Erlangen-N\"urnberg, Germany

AI总结该研究发现，当系统提示中包含软性赞助信息时，大多数前沿大语言模型（LLMs）倾向于推荐价格高出约一倍的赞助航班。通过在多个开源和商业模型上复现实验，研究者发现使用一个包含30个token的用户提示，要求模型先提供中立的对比表格，能够显著降低赞助推荐的比例，从平均46.9%降至1.0%（开源模型）和从53.0%降至0%（OpenAI模型）。研究还指出，模型对赞助内容的响应具有一定的普遍性，并揭示了实验复现中可能存在的实现偏差问题。

Comments Submitted to Workshop on Textual Information Processing & Synthesis in the Wild

2605.12753 2026-05-14 eess.IV cs.CV cs.LG 版本更新

Optimization in Sparse 2D to Dense 3D Weakly Supervised Learning: Application to Multi-Label Segmentation of Large ex vivo MRI Data

Paul Hoareau, Kuan Yi Wang, Brandon Bujak, Roy Sun, Govind Nair, Irene Cortese, Charidimos Tsagkas, Daniel Reich, Julien Cohen-Adad

发表机构 * NeuroPoly Lab, Institute of Biomedical Engineering, Polytechnique Montreal（神经多极实验室，生物医学工程学院，蒙特利尔理工学院）； École Centrale de Lyon（里昂中央理工学院）； Mila - Quebec AI Institute（魁北克人工智能研究所）； Functional Neuroimaging Unit, CRIUGM, University of Montreal（功能神经影像单元，CRIUGM，蒙特利尔大学）； Translational Neuroradiology Section, National Institute of Neurological Disorders and Stroke, National Institutes of Health（转化神经放射学部门，国家神经疾病与中风研究所，国家卫生研究院）； Translational Imaging in Neurology (ThINk) Basel, Department of Biomedical Engineering, Faculty of Medicine, University Hospital Basel and University of Basel（神经学转化成像（ThINk）巴塞尔，生物医学工程系，医学院，巴塞尔大学医院和巴塞尔大学）； Neurologic Clinic and Policlinic, Departments of Medicine, University Hospital Basel, Switzerland（神经科诊所和多科诊所，医学院，巴塞尔大学医院，瑞士）； Research Center for Clinical Neuroimmunology and Neuroscience Basel (RC2NB), University Hospital Basel and University of Basel, Switzerland（临床神经免疫学和神经科学巴塞尔研究中心（RC2NB），巴塞尔大学医院和巴塞尔大学，瑞士）； National Institute of Neurological Disorders and Stroke, National Institutes of Health（国家神经疾病与中风研究所，国家卫生研究院）； Centre de recherche du CHU Sainte-Justine, Université de Montréal, Montreal, QC, Canada（圣朱斯特医院研究中心，蒙特利尔大学，蒙特利尔，魁北克，加拿大）； Quantitative MRI core facility, NINDS, NIH（定量MRI核心设施，NINDS，NIH）； Experimental Immunotherapeutics Unit, Division of Neuroimmunology and Neurovirology, NINDS, NIH（实验免疫治疗单元，神经免疫学和神经病毒学部门，NINDS，NIH）

AI总结该研究针对高分辨率体外MRI数据的多标签分割问题，探讨了在稀疏2D标注下如何优化生成密集3D分割的弱监督学习方法。研究提出了一种基于2D教师网络生成伪标签训练3D学生网络的框架，并系统分析了人类视觉增强、空间增强和软标签正则化对模型性能的影响。结果表明，2D和3D模型在优化策略上存在显著差异，需采用不同的正则化方法以获得最佳分割效果。

Comments 19 pages. Submitted to Machine Learning for Biomedical Imaging (MELBA). Code and models: https://github.com/ivadomed/model_seg_sc-gm-lesion_human_ms_exvivo_t2star

2605.12743 2026-05-14 cs.CR cs.CV 版本更新

Still Camouflage, Moving Illusion: View-Induced Trajectory Manipulation in Autonomous Driving

Shuo Ju, Qingzhao Zhang, Huashan Chen, Xuheng Wang, Haotang Li, Wanqian Zhang, Feng Liu, Kebin Peng, Sen He

发表机构 * Institute of Information Engineering, Chinese Academy of Sciences（中国科学院信息工程研究所）； The University of Arizona（亚利桑那大学）； Beijing Jiaotong University（北京交通大学）； East Carolina University（东卡罗来纳大学）

AI总结该研究提出了一种新型的物理对抗攻击方法，针对基于视觉的自动驾驶系统，利用视角变化本身作为攻击工具，通过在车辆上部署静态的伪装贴片，使其在相对运动中产生视点依赖的外观变化，从而诱导系统产生错误的轨迹预测。与以往需要多视角鲁棒性或主动干预的攻击方法不同，该方法仅需简单部署，即可在不同场景和感知模型下引发自动驾驶车辆的误判刹车，实验在nuScenes数据集上验证了其高达87.5%的成功率。

2605.12725 2026-05-14 cs.CV 版本更新

Is Video Anomaly Detection Misframed? Evidence from LLM-Based and Multi-Scene Models

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

发表机构 * University of South Florida（佛罗里达州立大学）； Mitsubishi Electric Research Laboratories（三菱电机研究实验室）

AI总结近年来，视频异常检测研究逐渐转向构建跨场景的通用正常行为模型，但这一趋势忽视了场景特定和上下文依赖的正常行为特性。现有方法常依赖多模态大语言模型的预训练表示和视频级弱监督，导致模型更关注语义层面的异常类别，而非特定环境中的正常行为偏差。本文通过视觉分析和实验评估指出，这种做法削弱了空间定位能力，引入语义偏差，并将异常检测简化为动作识别，强调视频异常检测应在单一场景中重新聚焦于空间感知和可解释的正常行为建模。

2605.12724 2026-05-14 cs.CV cs.AI 版本更新

Inline Critic Steers Image Editing

Weitai Kang, Xiaohang Zhan, Yizhou Wang, Mang Tik Chiu, Jason Kuen, Kangning Liu, Yan Yan

发表机构 * University of Illinois Chicago（伊利诺伊大学芝加哥分校）； Adobe

AI总结本文研究了基于指令的图像编辑中不同区域的难度差异问题，提出了一种在生成过程中实时修正模型输出的方法。核心方法是引入一个可学习的“Inline Critic”模块，在模型中间层对生成结果进行评估，并引导后续生成过程。该方法通过三阶段训练策略稳定模型学习，显著提升了图像编辑的效果，在多个基准测试中取得了当前最优性能。

Comments 9 pages

2605.12703 2026-05-14 cs.CV cs.AI 版本更新

MMCL-Bench: Multimodal Context Learning from Visual Rules, Procedures, and Evidence

Yifan Chen, Fei Yin, Qingyan Bai, Zicheng Lin, Yujiu Yang

发表机构 * University of Cambridge（剑桥大学）； HKUST（香港科技大学）； Tsinghua University（清华大学）

AI总结本文介绍了 MMCL-Bench，一个用于多模态上下文学习的基准，旨在从视觉或混合模态的教学内容中学习任务相关的规则、程序和经验模式，并应用于新的视觉实例。该基准包含102个任务，涵盖规则应用、流程执行和经验归纳三个类别，评估结果显示当前主流多模态模型在严格评分标准下仍远未达到鲁棒的多模态上下文学习能力，揭示了多模态上下文学习作为当前模型的重要能力瓶颈。

2605.12684 2026-05-14 cs.CV cs.AI cs.HC 版本更新

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

Yichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu

发表机构 * Bake AI ； University of Washington（华盛顿大学）； University of California, Santa Barbara（加州大学圣巴巴拉分校）； Stanford University（斯坦福大学）； University of Notre Dame（诺丁汉大学）； Carnegie Mellon University（卡内基梅隆大学）； MIT-IBM Watson AI Lab（麻省理工-IBM沃森人工智能实验室）； Western Washington University（西雅图华盛顿大学）； King Abdulaziz City for Science and Technology（国王阿卜杜勒阿齐兹科技城）

AI总结该研究探讨了前沿多模态大语言模型在视觉审美判断方面的能力，指出当前模型在判断图像美感时存在显著不足。研究引入了“视觉审美基准”（VAB），通过专家标注的对比任务评估模型表现，发现即使是最好的模型在识别最佳和最差图像时也远不如人类专家。研究还表明，通过少量专家示例对模型进行微调，可以显著提升其性能，凸显了VAB在推动审美判断模型发展中的重要价值。

Comments Project page: https://vab.bakelab.ai. Code: https://github.com/BakeLab/Visual-Aesthetic-Benchmark. Dataset: https://huggingface.co/datasets/BakeLab/Visual-Aesthetic-Benchmark

2605.12650 2026-05-14 cs.CV 版本更新

CRAFT: Clinical Reward-Aligned Finetuning for Medical Image Synthesis

Yunsung Chung, Alex El Darzi, Carlo El Khoury, Han Feng, Nassir Marrouche, Jihun Hamm

发表机构 * Department of Computer Science, Tulane University（路易斯安那大学计算机科学系）； School of Medicine, Tulane University（路易斯安那大学医学院）

AI总结该研究针对医学图像合成中基础扩散模型适应性不足的问题，提出了一种基于临床对齐的微调方法CRAFT。通过引入临床对齐分数（CAS）作为新的评估指标，CRAFT从多模态大语言模型中迁移医学知识，结合条件提示增强、临床检查表和可微奖励优化，显著提升了生成图像的临床相关性。实验表明，CRAFT在多个医学影像模态上不仅提高了CAS评分，还有效减少了生成图像的不真实现象，优于现有主流方法。

2605.12325 2026-05-14 cs.CV 版本更新

VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference

Hao Zhu, Shuo Jin, Wenbin Liao, Jiayu Xiao, Yan Zhu, Siyue Yu, Feng Dai

发表机构 * Institute of Computing Technology, Chinese Academy of Sciences, Beijing, China（中国科学院计算技术研究所）； University of Liverpool（利物浦大学）

AI总结该研究旨在解决无训练开放词汇语义分割中因CLIP模型存在空间偏差而导致的效率与泛化性难题。为此，作者提出了一种基于空间感知框架dino$.$txt的视觉引导提示进化（VIP）方法，通过引入视觉引导的蒸馏机制和别名扩展，提升文本查询的语义表达能力，从而实现更高效、更精确的密集预测。实验表明，VIP在多个基准数据集上取得了优于现有方法的性能，并具有良好的跨领域泛化能力和较低的推理开销。

Comments Accepted by ICML2026. Code is available at https://github.com/MiSsU-HH/VIP

2605.12163 2026-05-14 cs.CV 版本更新

Self-Consistent Latent Reasoning: Long Latent Sequence Reasoning for Vision-Language Model

Chenfeng Wang, Wei He, Xuhan Zhu, Chunpeng Zhou, Qizhen Li, Song Yan, Yufei Zheng, Chengjun Yu, Fan Lu, Wei Zhai, Yang Cao, Pengfei Yu, Zheng-Jun Zha

发表机构 * University of Science and Technology of China（中国科学技术大学）； Li Auto Inc.（利亚自动化公司）

AI总结本文研究了视觉-语言模型中长潜层序列推理的问题，发现现有方法在潜层序列变长时性能下降，原因在于信息增益崩溃和过度池化的图像嵌入缺乏有效信号。为此，作者提出了一种自洽潜层推理方法SCOLAR，通过引入轻量级解码器生成独立锚定于原始视觉空间的辅助视觉标记，并结合多阶段微调和强化学习，显著提升了潜层推理长度和模型性能，在多个真实场景基准上取得了最优结果。

Comments 17 pages, 6 figures

2605.12145 2026-05-14 cs.CV 版本更新

Cross-Modal-Domain Generalization Through Semantically Aligned Discrete Representations

Souptik Sen, Raneen Younis, Zahra Ahmadi

发表机构 * Peter L. Reichertz Institute for Medical Informatics（汉诺威医学院彼得·L·里赫茨医学信息学研究所）； Lower Saxony Center for AI and Causal Methods in Medicine (CAIMed)（下萨克森医学人工智能与因果方法中心（CAIMed））

AI总结该研究旨在解决多模态学习中跨模态泛化与模态特异性结构之间的平衡问题。提出了一种名为CoDAAR的新框架，通过语义对齐的离散表示，在统一的离散空间中同时保留各模态的独特结构并实现跨模态的泛化能力。该方法结合了离散时间对齐和级联语义对齐两种机制，通过自监督重建任务进行训练，在多个跨模态和跨领域基准测试中取得了最先进的性能。

Comments Added missing affiliation for co-author R. Younis and Z. Ahmadi

2605.12119 2026-05-14 cs.CV cs.GR 版本更新

MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics

Haofeng Liu, Yang Zhou, Ziheng Wang, Zhengbo Xu, Zhan Peng, Jie Ma, Jun Liang, Shengfeng He, Jing Li

发表机构 * Orange-3DV-Team（橙色3D视觉团队）

AI总结本文提出了一种名为MoCam的统一新视角合成方法，旨在解决生成式新视角合成中几何先验与外观先验之间的矛盾。该方法通过结构化去噪动力学，在扩散过程中协调地从几何到外观逐步生成内容，先利用几何先验构建粗略结构，再借助外观先验修正几何误差并细化细节。实验表明，MoCam在点云存在严重缺失或扭曲的情况下表现尤为突出，实现了几何与外观的有效解耦与统一合成。

Comments Project page: https://orange-3dv-team.github.io/MoCam

2605.11989 2026-05-14 cs.CV cs.AI 版本更新

A Transfer Learning Evaluation of Deep Neural Networks for Image Classification

Nermeen Abou Baker, Nico Zengeler, Uwe Handmann

发表机构 * Computer Science Institute, Ruhr West University of Applied Sciences, 46236 Bottrop（鲁尔西大学应用科学学院计算机科学研究所）

AI总结本文研究了如何为图像分类任务选择最符合目标领域需求的预训练模型，探讨了迁移学习在深度神经网络中的应用效果。作者对十一类在ImageNet上预训练的模型进行了输出层和网络参数的调整，并将其应用于五个不同的目标数据集。通过评估准确率、准确密度、训练时间和模型大小等指标，比较了不同模型在单次和多次训练过程中的表现，为迁移学习中的模型选择提供了参考依据。

Comments Published by Machine Learning and Knowledge Extraction Journal

Journal ref Machine Learning and Knowledge Extraction 4, no. 1: 22-41 (2022)

2605.11572 2026-05-14 cs.CV 版本更新

TB-AVA: Text as a Semantic Bridge for Audio-Visual Parameter Efficient Finetuning

Seongah Kim, Dinh Phu Tran, Hyeontaek Hwang, Saad Wazir, Duc Do Minh, Daeyoung Kim

发表机构 * AI2 Lab, KAIST（AI2实验室，韩国科学技术院）

AI总结该研究提出了一种名为TB-AVA的参数高效微调框架，旨在解决音频-视觉对齐中的语义对应难题。通过引入文本作为语义桥梁，TB-AVA在冻结的音频和视觉编码器基础上，利用文本引导的语义调制模块实现跨模态特征的交互与对齐。实验表明，该方法在多个基准数据集上取得了最先进的性能，验证了文本作为语义锚点在音频-视觉学习中的有效性。

Comments 12 pages, 6 figures

2605.11533 2026-05-14 cs.CL cs.CV 版本更新

Checkup2Action: A Multimodal Clinical Check-up Report Dataset for Patient-Oriented Action Card Generation

Sike Xiang, Shuang Chen, Kevin Qinghong Lin, Jialin Yu, Yijia Sun, Philip Torr, Amir Atapour-Abarghouei

发表机构 * Durham University（杜伦大学）； University of Oxford（牛津大学）

AI总结该研究提出了一个名为 Checkup2Action 的多模态临床体检报告数据集，用于生成面向患者的行动建议卡片。该数据集包含2000份去标识化的实际体检报告，涵盖人口统计、体格检查、实验室检测、心血管评估和影像学证据等信息，每个行动卡片包含临床问题、优先级、推荐科室、随访时间、患者解释及问题等结构化内容。研究将体检报告到行动建议的生成任务定义为约束结构化生成问题，并引入了涵盖覆盖度、优先级一致性、部门与时间推荐准确性等多维度的评估协议，为评估模型在临床报告上的患者导向推理能力提供了新的基准。

2605.11492 2026-05-14 cs.CV 版本更新

A Mimetic Detector for Adversarial Image Perturbations

Johnny Corbino

发表机构 * Lawrence Berkeley National Laboratory（伯克利国家实验室）

AI总结该研究提出了一种无需训练、无需访问目标网络的单次检测方法，用于识别图像中的对抗性扰动。方法基于高阶Corbino–Castillo拟态算子，能够有效捕捉对抗样本在像素级上产生的高频、近随机的梯度能量特征。实验表明，该检测器在标准测试图像上实现了显著的干净图像与对抗样本的区分能力，检测效果随算子阶数增加而提升。

Comments v2: extended Table 1 with results for order $k=8$; minor revisions for clarity

2605.11444 2026-05-14 cs.CV 版本更新

Leveraging Multimodal Large Language Models for All-in-One Image Restoration via a Mixture of Frequency Experts

Eunho Lee, Rei Kawakami, Youngbae Hwang

发表机构 * Chungbuk National University（Chungbuk国立大学）； Institute of Science Tokyo（东京科学研究所）

AI总结该研究提出了一种基于多模态大语言模型（MLLM）的统一图像修复框架，旨在从受多种未知退化影响的输入中恢复清晰图像。为了解决现有方法将退化视为离散类别而无法建模复合退化中连续关系的问题，作者引入了多模态嵌入作为修复过程的引导，并设计了MLLM引导的融合模块和频率专家混合模块，以增强退化感知表示并自适应组合不同频率专家。实验表明，该方法在多个基准数据集上表现出色，在CDD11数据集上取得了新的最先进成果。

2605.11347 2026-05-14 cs.LG cs.AI cs.CV 版本更新

Gradient-Free Noise Optimization for Reward Alignment in Generative Models

Jeongsol Kim, Hongeun Kim, Jian Wang, Jong Chul Ye

发表机构 * KAIST AI（韩国科学技术院人工智能实验室）； Snap Inc.（Snap公司）

AI总结本文提出了一种无需梯度的噪声优化方法ZeNO，用于生成模型中的奖励对齐问题。该方法将噪声优化建模为路径积分控制问题，仅依赖零阶奖励评估，避免了传统方法对反向传播的依赖。ZeNO在多种生成器和奖励函数上表现出色，尤其适用于无法进行反向传播的场景，如蛋白质结构生成任务。

2605.10983 2026-05-14 cs.LG cs.AI cs.CV 版本更新

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Jiaming Li, Chenyu Zhu, Nanxi Yi, Youjun Bao, Li Sun, Quanying Lv, Xiang Fang, Daizong Liu, Jianjun Li, Kun He, Bowen Zhou, Zhiyuan Ma

发表机构 * Huazhong University of Science and Technology（华中科技大学）； Kuaishou Technology（快手科技）； Nanyang Technological University（南洋理工大学）； Wuhan University（武汉大学）； Tsinghua University（清华大学）

AI总结该研究针对扩散模型对下游任务对齐过程中存在的奖励作弊问题，提出了一种轨迹匹配策略优化方法（TMPO），通过轨迹级奖励分布匹配替代传统的标量奖励最大化，有效提升了生成多样性和质量。TMPO 引入了 Softmax 轨迹平衡目标，使策略概率与奖励诱导的玻尔兹曼分布对齐，并证明其具有覆盖多模式轨迹的特性。此外，TMPO 还结合动态随机树采样技术，提升大规模流匹配模型的训练效率，实验表明其在生成多样性及任务性能上均优于现有方法。

2605.10819 2026-05-14 cs.RO cs.AI cs.CV 版本更新

ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models

Zuojin Tang, Haoyun Liu, Xinyuan Chang, Changjie Wu, Dongjie Huo, Yandan Yang, Bin Liu, Zhejia Cai, Feng Xiong, Mu Xu, jiachen Luo, De Ma, Zhiheng Ma, Gang Pan

发表机构 * Zhejiang University（浙江大学）； Amap, Alibaba Group（阿里集团阿地图）； Nanjing University（南京大学）； Shenzhen University of Advanced Technology（深圳先进技术大学）； Beijing University of Chemical Technology（北京化工大学）； Embodied Intelligence General Platform Laboratory, Chery Auto（奇瑞汽车 embodied intelligence 通用平台实验室）； Tsinghua University（清华大学）； Queen Mary University of London（伦敦大学玛丽女王学院）

AI总结视觉-语言-动作（VLA）模型受限于带有动作标签的机器人数据稀缺，而无动作视频中蕴含了丰富的物理世界变化信息。本文提出ALAM（代数一致潜在动作模型），通过从无动作视频中学习结构化的潜在动作转移，为策略生成提供一致的过渡结构。ALAM利用帧三元组学习满足重建、组合和反转一致性的潜在转移，并通过联合流匹配目标将其与策略生成结合，显著提升了VLA任务的性能，在多个基准测试中取得了显著提升。

2605.10426 2026-05-14 cs.CV cs.AI 版本更新

CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving

Minqing Huang, Yujiao Xiang, Zihan Liang, Jiajie Huang, Jingqi Wang, Zhi Xu, Feiyang Tan, Hangning Zhou, Mu Yang, Gong Che

发表机构 * Afari Intelligent Drive（Afari智能驾驶公司）； University of Electronic Science and Technology of China（电子科技大学）； Shanghai Jiao Tong University（上海交通大学）； Beijing University Of Posts and Telecommunications（北京邮电大学）； Tianjin University（天津大学）

AI总结本文提出了一种名为 CoWorld-VLA 的多专家世界模型框架，用于自动驾驶任务，旨在解决现有视觉-语言-动作（VLA）模型在规划导向的中间表示方面存在的不足。该方法通过多源监督提取互补的世界信息，并将其编码为专家 token，作为规划器的显式条件，从而更有效地指导动作生成。实验表明，CoWorld-VLA 在未来场景生成和路径规划任务上表现出色，尤其在避障和轨迹精度方面具有优势。

2605.10187 2026-05-14 cs.CV 版本更新

SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation

Longteng Guo, Xuanxu Lin, Dongze Hao, Tongtian Yue, Pengkang Huo, Jiatong Ma, Yuchen Liu, Jing Liu

发表机构 * Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； School of Artificial Intelligence, University of Chinese Academy of Sciences（中国科学院大学人工智能学院）； OPPO AI Center（OPPO AI中心）

AI总结 SciVQR 是一个涵盖数学、物理、化学等多个学科的多模态科学推理基准，旨在评估大型语言模型在处理复杂科学问题时的综合能力。该基准包含图表、公式等专业视觉元素，要求模型结合视觉理解与多步骤推理，任务难度从基础事实记忆到复杂推理不等，并提供专家解答供参考。研究发现当前主流多模态模型在处理跨学科、多步骤的科学推理任务时仍存在明显不足，突显了提升模型推理能力和学科知识整合的必要性。

2605.10127 2026-05-14 cs.CV 版本更新

Fashion130K: An E-commerce Fashion Dataset for Outfit Generation with Unified Multi-modal Condition

Yu He, Ting Zhu, Yichun Liu, Lichen Ma, Xinyuan Shan, Jingling Fu, Yu Shi, Junshi Huang, Yan Li

AI总结本文提出一个名为Fashion130K的新电商时尚数据集，包含多种场合、模特和服装类型，旨在推动服装搭配生成的研究。为实现服装生成的视觉一致性，作者设计了统一多模态条件（UMC）框架，通过融合文本和图像提示的嵌入信息，并引入融合变换器对齐多模态特征，进而引导生成模型关注提示与噪声图像之间的关键关联。该数据集和框架为多模态提示在生成模型中的应用提供了全面而细致的探索，并在多个实际应用和基准测试中表现出优于现有方法的视觉一致性效果。

Comments Accepted to CVPR 2026 Findings

2605.10040 2026-05-14 cs.CV 版本更新

Only Train Once: Uncertainty-Aware One-Class Learning for Face Authenticity Detection

Qingchao Jiang, Zhenxuan Hou, Zhiying Zhu, Zhenxing Qian, Xinpeng Zhang, Zaiwang Gu

AI总结随着生成式模型的快速发展，生成高度逼真的图像带来了身份欺诈和虚假信息传播的风险。现有方法大多将人脸伪造检测视为全监督的二分类问题，难以应对新型生成方法带来的挑战。本文提出FADNet，将人脸真实性检测重新建模为一类分类任务，仅使用真实人脸数据进行训练，通过引入证据深度学习和伪伪造图像生成器，有效提升了模型的泛化能力和检测精度，在多个基准测试中取得了优于现有方法的优异性能。

Comments The sole reason for our withdrawal application is that we have identified critical areas in our manuscript that require substantial revision and improvement to meet rigorous scientific standards. Our only intention is to retract the current draft to revise and enhance it, with no plans to replace it with a different version or redirect readers to other sources at this time

2605.09935 2026-05-14 cs.CV cs.CR 版本更新

Evidence-based Decision Modeling for Synthetic Face Detection with Uncertainty-driven Active Learning

Qingchao Jiang, Zhenxuan Hou, Zhiying Zhu, Zhenxing Qian, Xinpeng Zhang, Zaiwang Gu

AI总结随着深度生成模型的快速发展，伪造人脸图像被广泛用于非法活动。现有合成人脸检测方法虽取得进展，但因依赖Softmax激活函数而存在过度自信的问题，导致在面对未知分布图像时预测不可靠。为此，本文提出EMSFD方法，通过狄利克雷分布建模类别证据并显式引入模型不确定性，提升检测可靠性与泛化能力；同时利用不确定性指导主动学习，减少标注成本，实验表明该方法在检测准确率上比现有最优方法提升了15%。

Comments The sole reason for our withdrawal application is that we have identified critical areas in our manuscript that require substantial revision and improvement to meet rigorous scientific standards. Our only intention is to retract the current draft to revise and enhance it, with no plans to replace it with a different version or redirect readers to other sources at this time

2605.09725 2026-05-14 cs.CV 版本更新

On-Policy Distillation with Best-of-N Teacher Rollout Selection

Ke Zhang, Yunjie Tian, Dongdi Zhao, Yijiang Li, Yuanye Liu, Vishal M Patel, Di Fu

发表机构 * Johns Hopkins University（约翰霍普金斯大学）； TikTok ； University of California, San Diego（加州大学圣地亚哥分校）； Fudan University（复旦大学）

AI总结本文提出了一种名为BRTS的框架，用于改进基于策略的蒸馏（OPD）方法，以提高模型在复杂推理任务中的表现。BRTS通过从多个教师轨迹中选择最优的辅助轨迹，减少监督信号的噪声和方差，从而提升学生模型的学习效果。实验表明，BRTS在多个数学推理基准测试中显著优于传统OPD方法，尤其在难度较高的数据集上表现突出。

Comments 10 pages, 5 figures

2605.08320 2026-05-14 eess.IV cs.CV 版本更新

Improved monocular depth prediction using distance transform over pre-semantic contours with self-supervised neural networks

Marwane Hariat, Antoine Manzanera, David Filliat

发表机构 * U2IS, ENSTA, Institut Polytechnique de Paris（U2IS、ENSTA、巴黎理工学院）

AI总结本文针对单目深度估计在低纹理区域表现不佳的问题，提出了一种基于预语义轮廓的距离变换方法，结合自监督神经网络提升深度预测的准确性。该方法通过预语义轮廓联合估计深度和相机运动，并利用距离变换增强低纹理区域的判别能力，从而生成更具区分性的输入图像和更有效的损失函数。实验表明，该方法在多个数据集上表现出色，优于现有的自监督深度估计方法。

2605.08293 2026-05-14 cs.CV 版本更新

Distill, Diffuse, and Semanticize (DDS): Annotation-Free 3D Scene Understanding Based on Multi-Granularity Distillation and Graph-Diffusion-Based Segmentation

Yijing Wang, Ruonan Li, Qilin Wang, Rongqiang Zhao, Jie Liu

发表机构 * Faculty of Computing, Harbin Institute of Technology（哈尔滨工业大学计算机学院）； Pengcheng Laboratory（鹏城实验室）

AI总结本文提出了一种名为DDS的轻量级框架，用于无需标注的3D场景理解。该方法结合多粒度知识蒸馏和基于图扩散的分割技术，在保留超点结构组织的同时引入视觉语义信息，实现了区域一致且语义化的3D场景理解。实验表明，DDS在多个真实数据集上优于现有方法，在多项指标上均有显著提升，为无标注的3D场景理解提供了可扩展且可解释的解决方案。

2605.08078 2026-05-14 cs.CV cs.LG 版本更新

Normalizing Trajectory Models

Jiatao Gu, Tianrong Chen, Ying Shen, David Berthelot, Shuangfei Zhai, Josh Susskind

发表机构 * Apple（苹果公司）

AI总结本文提出了一种名为 Normalizing Trajectory Models（NTM）的新型生成模型，用于解决在少量采样步骤下扩散模型性能下降的问题。NTM 通过将每个逆向步骤建模为具有精确似然训练的条件归一化流，保留了完整的似然框架，同时提升了生成效率。该模型结合了浅层可逆模块与深层并行预测器，支持从头训练或基于预训练流匹配模型初始化，并通过自蒸馏技术实现了仅需四步即可生成高质量图像的效果，在文本到图像任务中表现优异。

Comments 25 pages, 10 figures; corrected typos and citations

2605.07188 2026-05-14 cs.CV 版本更新

PicoEyes: Unified Gaze Estimation Framework for Mixed Reality with a Large-Scale Multi-View Dataset

Fuxin Duan, Hui Wang

发表机构 * Pico, Bytedance（字节跳动）

AI总结本文提出了一种统一的注视估计框架PicoEyes，能够从单目或双目输入中直接预测注视的多个关键属性，包括3D眼参数、眼区分割、光轴、视线轴和深度图，并在端到端流程中同时解决校准、注视预测和设备姿态变化问题。研究还引入了一个大规模多视角近眼数据集，包含多种条件下的详尽2D和3D标注。实验表明，PicoEyes在无校准、校准、重戴校准和预测等多种设置下均优于现有学术和工业注视追踪方法，为混合现实应用中的鲁棒且通用的注视估计提供了实用范式。

Comments 15 pages, 10 figures, conference

2605.04506 2026-05-14 cs.CV cs.AI 版本更新

Ilov3Splat: Instance-Level Open-Vocabulary 3D Scene Understanding in Gaussian Splatting

Binh Long Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

发表机构 * School of Electrical Engineering and Robotics（电气工程与机器人学学院）； Queensland University of Technology（昆士兰理工大学）； CSIRO Robotics（CSIRO机器人部）； CSIRO

AI总结 Ilov3Splat 是一种基于高斯点扩散（3D-GS）的新型框架，用于实现实例级别的开放词汇三维场景理解。该方法通过在高斯点中引入视图一致的特征场，联合优化场景几何与语义表示，从而提升跨视角一致性与实例级推理能力。通过结合多分辨率哈希嵌入与对比损失训练实例特征场，Ilov3Splat 能够在无需类别监督的情况下，基于自然语言描述准确识别和分割三维场景中的任意物体，显著优于现有开放词汇三维理解方法。

Comments The International Conference on Pattern Recognition (ICPR) 2026

2604.27389 2026-05-14 cs.CV cs.AI 版本更新

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen

发表机构 * Southeast University Shanghai AI Laboratory（上海大学上海人工智能实验室）； Shanghai AI Laboratory（上海人工智能实验室）

AI总结本文提出COHERENCE基准，旨在评估多模态大语言模型在交织图文上下文中进行细粒度图文对齐的能力。现有基准多关注单一或多个图像的理解，而现实场景中信息常以图文交织形式呈现，要求模型不仅识别图像内容，还需建立图文间的细粒度关联并进行推理。COHERENCE涵盖四个代表性领域的交织图文内容，包含6,161个高质量问题，并通过六类错误分析，揭示当前模型在该任务中的不足。

2604.09025 2026-05-14 cs.CV cs.AI 版本更新

Skill-Conditioned Visual Geolocation for Vision-Language Models

Chenjie Yang, Yutian Jiang, Yutong Deng, Chenyu Wu

发表机构 * Southwest Jiaotong University（西南交通大学）； The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））； Zhejiang University（浙江大学）

AI总结该研究针对视觉语言模型在地理定位任务中缺乏结构化地理推理和自主进化能力的问题，提出了一种无需训练的GeoSkill框架。该方法基于一个可演进的技能图（Skill-Graph），通过提炼人类专家轨迹生成自然语言技能，并利用推理模型进行引导式推理。同时，通过自主进化机制，从大规模网络数据中不断生成和优化技能，提升地理定位的准确性和推理可信度，显著增强了模型对真实地理知识的理解与泛化能力。

2604.08039 2026-05-14 cs.CV cs.AI cs.LG 版本更新

LINE: LLM-based Iterative Neuron Explanations for Vision Models

Vladimir Zaigrajew, Michał Piechota, Gaspar Sekula, Paweł Gelar, Przemysław Biecek

发表机构 * Centre for Credible AI（可信AI中心）； Warsaw University of Technology（华沙理工大学）； University of Warsaw, Poland（波兰华沙大学）

AI总结本文提出了一种基于大语言模型的迭代神经元解释方法LINE，用于对视觉模型中的神经元进行开放词汇的概念标注。LINE在黑盒设置下，通过语言模型和图像生成器迭代生成并优化概念描述，无需模型训练，能够发现传统预定义词汇表中遗漏的概念，并在多个数据集上取得了优于现有方法的性能。该方法不仅能够识别每个神经元的主要概念，还能提供完整的生成历史，支持多义性评估和生成可视化解释。

2604.04692 2026-05-14 cs.CL cs.AI cs.CV 版本更新

Is a Picture Worth a Thousand Words? Adaptive Multimodal Fact-Checking with Visual Evidence Necessity

Jaeyoon Jung, Yejun Yoon, Kunwoo Park

发表机构 * School of AI Convergence, Soongsil University（顺斯利大学人工智能融合学院）； MAUM AI Inc.（MAUM人工智能公司）； Department of Intelligent Semiconductors, Soongsil University（顺斯利大学智能半导体系）

AI总结本文研究了在多模态事实核查任务中是否应普遍使用视觉证据的问题，挑战了现有研究中“视觉证据总是有助于提升性能”的假设。为此，作者提出了AMuFC框架，通过两个协作的视觉-语言模型，分别用于判断是否需要视觉证据以及基于证据进行事实验证，从而实现对视觉证据的自适应使用。实验表明，该方法在三个数据集上显著提升了事实核查的准确性。

Comments preprint, 18 pages

2604.04667 2026-05-14 cs.CV cs.LG cs.RO 版本更新

ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging

Selim Ahmet Iz, Francesco Nex, Norman Kerle, Henry Meissner, Ralf Berger

发表机构 * German Aerospace Center (DLR), Institute of Space Research（德国航空航天中心（DLR）空间研究所）； Faculty of Geo-Information Science and Earth Observation (ITC), University of Twente（代尔夫特理工大学地理信息科学与地球观测学院）

AI总结本文提出了一种名为ZeD-MAP的框架，用于实现实时无人机航拍图像的高精度深度重建。该方法结合零样本扩散模型与增量聚类式光束法平差（BA），在无需任务特定再训练的情况下，提升了深度估计的度量一致性和时间连续性。实验表明，该方法在高分辨率航拍图像上实现了亚米级精度，且单帧处理时间在1.47到4.91秒之间，适用于实时三维地图生成。

详情

英文摘要

Real-time depth reconstruction from ultra-high-resolution UAV imagery is essential for time-critical geospatial tasks such as disaster response, yet remains challenging due to wide-baseline parallax, large image sizes, low-texture or specular surfaces, occlusions, and strict computational constraints. Recent zero-shot diffusion models offer fast per-image dense predictions without task-specific retraining, and require fewer labelled datasets than transformer-based predictors while avoiding the rigid capture geometry requirement of classical multi-view stereo. However, their probabilistic inference prevents reliable metric accuracy and temporal consistency across sequential frames and overlapping tiles. We present ZeD-MAP, a cluster-level framework that converts a test-time diffusion depth model into a metrically consistent, SLAM-like mapping pipeline by integrating incremental cluster-based bundle adjustment (BA). Streamed UAV frames are grouped into overlapping clusters; periodic BA produces metrically consistent poses and sparse 3D tie-points, which are reprojected into selected frames and used as metric guidance for diffusion-based depth estimation. Validation on ground-marker flights captured at approximately 50 m altitude (GSD is approximately 0.85 cm/px, corresponding to 2,650 square meters ground coverage per frame) with the DLR Modular Aerial Camera System (MACS) shows that our method achieves sub-meter accuracy, with approximately 0.87 m error in the horizontal (XY) plane and 0.12 m in the vertical (Z) direction, while maintaining per-image runtimes between 1.47 and 4.91 seconds. Results are subject to minor noise from manual point-cloud annotation. These findings show that BA-based metric guidance provides consistency comparable to classical photogrammetric methods while significantly accelerating processing, enabling real-time 3D map generation.

URL PDF HTML ☆

赞 0 踩 0

2603.29917 2026-05-14 cs.CV 版本更新

Diffusion-Based Feature Denoising with NNMF for Robust handwritten digit multi-class classification

Hiba Adil Al-kharsan, Róbert Rajkó

发表机构 * Doctoral School of Computer Science, University of Szeged（塞格德大学计算机科学博士学院）； University Research and Innovation Center (EKIK), Óbuda University（奥布达大学研究与创新中心（EKIK））

AI总结本文提出了一种结合扩散驱动特征去噪与混合特征表示的鲁棒手写数字多分类框架。通过非负矩阵分解（NNMF）将输入图像转换为可解释的特征表示，同时利用卷积神经网络提取深层特征，并将两者融合为统一的混合特征表示。在特征空间中引入逐步扩散噪声并训练去噪网络以恢复干净特征，从而提升模型对噪声和对抗攻击的鲁棒性。实验结果表明，该方法在基准和对抗环境下均表现出优越的分类性能。

2603.26839 2026-05-14 cs.LG cs.CV 版本更新

From Pixels to BFS: High Maze Accuracy Does Not Imply Visual Planning

Alberto G. Rodriguez Salgado

发表机构 * Independent Researcher（独立研究者）

AI总结该研究探讨了多模态模型在解决视觉空间任务时是依赖真正的规划能力，还是通过在文本空间中进行暴力搜索。为此，研究者提出了一个名为 MazeBench 的基准测试，包含 110 个程序生成的迷宫图像，并评估了来自 OpenAI、Anthropic、Google 和阿里巴巴的 16 种模型配置。实验发现，尽管某些模型在视觉迷宫任务中表现出高准确率，但其解题方式主要是将图像转换为文本网格，再逐步枚举路径，而非真正的空间规划，揭示了高准确率并不意味着具备人类水平的空间理解能力。

Comments 15 pages, 10 figures. Code and mazes available at https://github.com/alrod97/LLMs_mazes

2603.22364 2026-05-14 cs.LG cs.AI cs.CV 版本更新

MCLR: Improving Conditional Modeling via Inter-Class Likelihood-Ratio Maximization and Unifying Classifier-Free Guidance with Alignment Objectives

Xiang Li, Yixuan Jia, Xiao Li, Jeffrey A. Fessler, Rongrong Wang, Qing Qu

发表机构 * University of Michigan（密歇根大学）； Michigan State University（密歇根州立大学）

AI总结本文提出了一种名为MCLR的新训练目标，旨在通过最大化类间似然比来提升扩散模型的条件生成能力。该方法解决了标准去噪分数匹配（DSM）在类间分离不足的问题，并在训练过程中引入对齐目标，使模型在无需推理时引导（CFG）的情况下也能获得更优的条件生成效果。理论分析表明，CFG引导的分数实际上是针对样本自适应加权MCLR目标的最优解，从而揭示了CFG与对齐目标之间的内在联系。

2603.13054 2026-05-14 cs.CV 版本更新

Topo-R1: Detecting Topological Anomalies via Vision-Language Models

Meilong Xu, Qingqiao Hu, Xiaoling Hu, Shahira Abousamra, Xin Yu, Weimin Lyu, Kehan Qi, Dimitris Samaras, Chao Chen

发表机构 * Stony Brook University（石溪大学）； Massachusetts General Hospital and Harvard Medical School（麻省总医院和哈佛医学院）； Stanford University（斯坦福大学）； Penn State University（宾夕法尼亚州立大学）

AI总结该研究探讨了如何利用视觉-语言模型（VLMs）检测管状网络结构中的拓扑异常，如血管、神经纤维和道路网络中的连接断裂、虚假连接、分支缺失或多余等问题。研究发现现有VLMs在拓扑感知方面表现较差，几乎随机。为此，作者构建了一个包含多样化拓扑扰动的大型基准数据集，并提出Topo-R1模型，通过结合定位、分类和结构保真度的复合奖励机制，显著提升了模型在拓扑异常检测任务中的性能，优于通用VLMs并接近监督学习方法。

Comments 26 pages, 6 figures

2603.07433 2026-05-14 cs.LG cs.CV 版本更新

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria

发表机构 * National University of Singapore（新加坡国立大学）； Nanjing University（南京大学）； Nanyang Technological University（南洋理工大学）

AI总结该论文提出了一种名为Data Agent的端到端动态数据选择框架，旨在通过在线训练中优先选择信息量大的样本来加速模型训练。其核心方法是将数据选择建模为一个与训练过程相关的序列决策问题，通过结合损失和置信度的复合奖励机制，学习一个与模型优化协同进化的样本选择策略。实验表明，Data Agent在多个数据集和模型架构上均能有效提升训练效率并保持或提升性能，且具有良好的通用性和鲁棒性，适用于多种实际场景。

2603.05582 2026-05-14 cs.LG cs.CV 版本更新

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione

发表机构 * LTCI, Télécom Paris, Institut Polytechnique de Paris, France（法国巴黎电信学院（LTCI）、巴黎理工学院）

AI总结本文探讨了如何从常规训练的深度学习模型中提取无偏的子网络，以减少算法中的偏见。研究提出了一种名为BISE的方法，无需额外数据或重新训练，即可通过剪枝技术识别并分离出模型中已存在的“无偏”子网络。该方法在保持模型性能的同时降低了对有偏特征的依赖，为高效的偏见缓解提供了结构化适应的新途径。实验表明，该方法在多个基准数据集上表现出优越的性能和计算效率。

Comments This work has been accepted for publication at the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026

2603.02337 2026-05-14 cs.LG cs.AI cs.CV 版本更新

Preconditioned Flow Matching

Shadab Ahamed, Eshed Gal, Md Shahriar Rahim Siddiqui, Simon Ghyselincks, Moshe Eliasof, Eldad Haber

发表机构 * University of British Columbia（不列颠哥伦比亚大学）； University of Cambridge（剑桥大学）

AI总结本文研究了流匹配（Flow Matching）方法在训练过程中遇到的几何优化瓶颈问题，即当中间分布的协方差矩阵病态时，梯度下降方法在不同方向上的收敛速度差异显著。为此，作者提出了一种预条件流匹配（Preconditioned Flow Matching）方法，通过将目标分布转换为更各向同性的表示，改善中间路径的条件数，从而提升模型训练效率和生成质量。实验表明，该方法在多种分布和高分辨率图像数据集上均取得了显著的性能提升。

Comments 34 pages, 16 figures, 5 tables

2603.02175 2026-05-14 cs.CV cs.AI 版本更新

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

发表机构 * Show Lab, National University of Singapore（展示实验室，新加坡国立大学）

AI总结本文提出了一种名为 Kiwi-Edit 的通用视频编辑方法，通过指令和参考图像的联合引导实现更精确的视觉控制。为了解决现有方法在数据稀缺情况下的性能瓶颈，研究者设计了一种可扩展的数据生成管道，构建了大规模的 RefVIE 数据集和评估基准 RefVIE-Bench。基于该数据集，提出的统一编辑架构 Kiwi-Edit 通过可学习的查询与潜在视觉特征融合，实现了对参考语义的精准引导，在指令遵循和参考保真度方面取得了显著提升，达到了可控视频编辑的最新水平。

Comments Project page: https://showlab.github.io/Kiwi-Edit Huggingface Demo: https://huggingface.co/spaces/linyq/KiwiEdit

2602.23013 2026-05-14 cs.CV cs.LG 版本更新

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Camile Lendering, Erkut Akdag, Egor Bondarev

发表机构 * AIMS Group, Department of Electrical Engineering, Eindhoven University of Technology（AIMS组，电气工程系，埃因霍温理工大学）

AI总结本文提出了一种无需训练的少样本异常检测方法SubspaceAD，通过子空间建模实现工业视觉检测中的异常识别。该方法首先利用冻结的DINOv2模型从少量正常样本中提取块级特征，然后通过主成分分析（PCA）拟合这些特征以估计正常变化的低维子空间，在推理阶段通过重构残差检测异常，生成可解释且统计可靠的异常分数。实验表明，SubspaceAD在多个数据集上取得了当前最优的性能，尤其在单样本设置下表现出色。

Comments Accepted to CVPR 2026. Revised version with corrected AU-PRO evaluation and recomputed metrics

2602.22455 2026-05-14 cs.CV 版本更新

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Giuseppe Lando, Rosario Forte, Antonino Furnari

发表机构 * Department of Mathematics and Computer Science, University of Catania, Italy（数学与计算机科学系，卡塔尼亚大学，意大利）

AI总结本文研究了在边缘设备上使用多模态大语言模型（MLLMs）进行实时在线情景记忆问答的可行性。为应对隐私和延迟问题，作者设计了一个包含两个异步线程的问答流水线，分别用于视频到文本的轻量级描述生成和基于文本的记忆推理。实验表明，在资源受限的边缘设备上，该方法取得了与云端解决方案相当的性能，展示了边缘计算在隐私保护情景记忆检索中的潜力。

2602.21204 2026-05-14 cs.LG cs.AI cs.CV 版本更新

Test-Time Training with KV Binding Is Secretly Linear Attention

Junchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li

发表机构 * NVIDIA, Toronto, Ontario, Canada（NVIDIA，多伦多，安大略省，加拿大）； University of Toronto, Toronto, Ontario, Canada（多伦多大学，多伦多，安大略省，加拿大）； Vector Institute, Toronto, Ontario, Canada（向量研究所，多伦多，安大略省，加拿大）； Technion -- Israel Institute of Technology, Haifa, Israel（技术ion -- 以色列理工学院，海法，以色列）

AI总结本文重新审视了基于键值绑定的测试时训练（TTT）在序列建模中的作用，指出其本质并非单纯的测试时记忆，而是一种学习到的线性注意力机制。研究揭示了TTT模型中一些之前难以解释的现象，并展示了多种TTT架构可以统一为线性注意力操作的形式。这一新视角不仅解释了模型行为，还带来了架构简化、并行计算和效率提升等实际优势，为TTT提供了更系统和高效的理论基础。

Comments ICML 2026, Webpage: https://research.nvidia.com/labs/sil/projects/tttla/

2602.20150 2026-05-14 cs.RO cs.CV 版本更新

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Wei-Cheng Huang, Jiaheng Han, Xiaohan Ye, Zherong Pan, Kris Hauser

发表机构 * Meta Reality Labs（Meta现实实验室）

AI总结本文研究如何从真实世界观测中估计可用于仿真的复杂场景，解决现有方法在处理多物体交互场景时计算成本高、鲁棒性差的问题。作者提出了一种基于物理约束的联合形状与姿态优化方法，结合可微分接触模型和高效求解器，实现了对多刚体物体几何与姿态的联合优化。该方法构建了端到端的SPARCS系统，能够鲁棒地重建出符合物理规律的仿真可用场景，实验表明其在包含多达5个物体和22个凸包的复杂场景中表现优异。

Comments Accepted to RSS 2026, camera-ready version; 17 pages, 15 figures

2602.10326 2026-05-14 cs.CV cs.LG 版本更新

Flow Matching with Uncertainty Quantification and Guidance

Juyeop Han, Lukas Lao Beyer, Sertac Karaman

发表机构 * MIT（麻省理工学院）

AI总结尽管基于采样的生成模型如流匹配在图像生成方面取得了显著成功，但生成的样本质量仍可能存在不一致或退化的问题。为此，本文提出了一种轻量级的不确定性感知流匹配（UA-Flow）方法，该方法在预测速度场的同时估计异方差不确定性，并通过流动态传播不确定性以评估每个样本的可靠性。实验表明，UA-Flow 生成的不确定性信号与样本保真度具有更高的相关性，且基于不确定性的引导采样进一步提升了生成质量。

2602.10032 2026-05-14 cs.CV cs.RO 版本更新

Perception with Guarantees: Certified Pose Estimation via Reachability Analysis

Tobias Ladner, Yasser Shoukry, Matthias Althoff

发表机构 * Technical University of Munich, Germany（慕尼黑技术大学）； University of California, Irvine, USA（加州大学 Irvine 分校）

AI总结该论文研究了在安全关键型系统中如何通过视觉信息实现具有严格保证的三维姿态估计问题。作者提出了一种仅依赖于单目图像和已知目标几何形状的认证姿态估计方法，通过可达性分析和形式化神经网络验证技术，对姿态进行形式化边界约束，从而在最坏情况下也能保证估计的安全性。实验表明，该方法在合成与真实场景中均能高效且准确地完成定位任务，为安全关键型应用提供了可靠保障。

Comments Accepted at Computed Aided Verification (CAV'2026)

2602.02977 2026-05-14 cs.CV cs.AI cs.LG 版本更新

Aligning Forest and Trees in Images & Long Captions for Visually Grounded Understanding

Byeongju Woo, Zilin Wang, Byeonghyun Pak, Sangwoo Mo, Stella X. Yu

发表机构 * Agency for Defense Development（国防发展局）； University of Michigan（密歇根大学）； POSTECH

AI总结该研究针对视觉语言模型在理解长而细节丰富的图像描述时存在的问题，提出了一种基于局部-整体结构的层次化学习方法。核心方法是通过CAFT模型，在中间表示层对齐局部文本与图像区域，在最终表示层实现全局图像与文本的对齐，从而更准确地捕捉细粒度视觉信息。该模型在多个长文本检索任务中取得了最先进的性能，并且无需显式的区域标注即可实现文本语义在图像区域中的定位。

Comments Preprint

2601.22853 2026-05-14 cs.CV 版本更新

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin

发表机构 * Department of Electrical and Electronic Engineering & I-X（电气与电子工程系及I-X）

AI总结本文研究了多模态深度学习在面对不完整模态数据时的分类问题，提出了一种在推理阶段动态选择模态的框架DyMo，以解决传统方法中丢弃或恢复缺失模态所带来的信息损失或噪声引入问题。DyMo通过一种新的选择算法，在测试时自适应地识别并融合可靠的恢复模态，最大化任务相关的多模态信息，并设计了相应的奖励函数和网络架构，实验表明其在多种数据缺失场景下均优于现有方法。

Comments 27 pages (including appendix), accepted by ICLR 2026

2601.21892 2026-05-14 cs.CV cs.AI 版本更新

Improving Classifier-Free Guidance of Flow Matching via Manifold Projection

Jian-Feng Cai, Haixia Liu, Zhengyi Su, Chao Wang

发表机构 * Department of Mathematics, The Hong Kong University of Science ； IAS Center for AI for Scientific Discoveries, The Hong Kong University of Science ； School of Mathematics ； Statistics \& Institute of Interdisciplinary Research for Mathematics ； Applied Science \& Hubei Key Laboratory of Engineering Modeling ； Scientific Computing, Huazhong University of Science ； Department of Statistics ； Data Science, Southern University of Science

AI总结本文研究了如何改进基于流匹配模型的无分类器引导（CFG）方法，提出了通过流匹配中的速度场与平滑距离函数梯度之间的关系，对CFG进行原理性解释。基于此，作者将CFG采样重新表述为具有流形约束的同伦优化问题，并通过增量梯度下降实现流形投影，进一步结合Anderson加速提升计算效率与稳定性。该方法无需额外训练，有效提升了生成质量、提示对齐度及对引导尺度的鲁棒性，并在多个大型模型上取得了显著改进。

Comments 26 pages, 14 figures

2601.18842 2026-05-14 cs.CR cs.AI cs.CV 版本更新

GUIGuard-Bench: Toward a General Evaluation for Privacy-Preserving GUI Agents

Yanxi Wang, Zhiling Zhang, Wenbo Zhou, Weiming Zhang, Jie Zhang, Qiannan Zhu, Yu Shi, Shuxin Zheng, Jiyan He

发表机构 * Beijing Normal University（北京师范大学）； Zhongguancun Academy（中关村学院）； University of Science and Technology of China（中国科学技术大学）； A*STAR ； Zhongguancun Institution of Artificial Intelligence（中关村人工智能研究所）

AI总结随着GUI代理越来越多地依赖截图来感知和操作数字环境，可能会无意中暴露身份、账号、位置等敏感信息。为弥补现有隐私评估基准在任务轨迹上下文中隐私风险评估的不足，本文提出了GUIGuard-Bench，这是一个包含241条真实GUI代理轨迹和4080张截图的基准数据集，支持隐私识别、保护截图下的规划保真度评估以及不同保护策略的效用分析。研究发现，当前模型在隐私信息检测方面表现较好，但在细粒度定位、分类识别、风险评估和任务必要性判断上仍存在明显不足。

2601.17326 2026-05-14 cs.CV cs.HC 版本更新

SymbolSight: Minimizing Inter-Symbol Interference for Reading with Prosthetic Vision

Jasmine Lesner, Michael Beyeler

发表机构 * Department of Computer Science, University of California, Santa Barbara（计算机科学系，加州大学圣芭芭拉分校）； Department of Psychological & Brain Sciences, University of California, Santa Barbara（心理学与脑科学系，加州大学圣芭芭拉分校）

AI总结该研究针对视网膜假体视觉恢复中阅读困难的问题，提出了一种名为SymbolSight的计算框架，旨在通过优化视觉符号设计来减少符号间干扰。研究利用语言的双字统计特性，选择字母到符号的映射方式，以降低相邻字母间的识别混淆。实验表明，这种方法在阿拉伯语、保加利亚语和英语中显著减少了预测的识别错误，展示了符号设计优化在提升低带宽视觉假体阅读性能中的潜力。

Comments Accepted to IEEE EMBC 2026. 7 pages, 6 figures, 2 tables

2601.14104 2026-05-14 cs.RO cs.CV 版本更新

When Backdoors Meet Partial Observability: Attacking Real-World Reinforcement Learning

Tairan Huang, Qingqing Ye, Yulin Jin, Jiawei Lian, Yaxin Xiao, Yi Wang, Haibo Hu

发表机构 * Department of Electrical and Electronic Engineering（电气与电子工程系）

AI总结本文研究了在部分可观测的现实环境中对强化学习（RL）策略进行后门攻击的问题，指出传统攻击方法在多模态观测（如视觉和激光雷达）共存的场景下存在局限性。为此，作者提出了一种基于扩散模型的后门攻击框架（DGBA），通过可打印的视觉触发器，在不干扰任务性能的前提下实现对RL策略的隐蔽操控。实验表明，该方法在物理机器人平台上的攻击效果优于现有方法，具有较高的实用性和隐蔽性。

2601.09636 2026-05-14 cs.AI cs.CV cs.HC cs.LG 版本更新

PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Yibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie

发表机构 * Harbin Institute of Technology, Shenzhen（哈尔滨工业大学（深圳））； Shenzhen Loop Area Institute（深圳环城区域研究院）

AI总结本文提出 PersonalAlign，一种面向个性化图形用户界面（GUI）代理的分层隐式意图对齐方法，旨在通过利用用户的长期行为记录来理解模糊指令中的隐含偏好并主动预测用户潜在操作。为此，研究者构建了 AndroidIntent 基准数据集，并设计了 Hierarchical Intent Memory Agent（HIM-Agent）来持续更新和组织用户的个性化偏好与行为模式。实验表明，HIM-Agent 在执行与主动协助任务上分别提升了 15.7% 和 7.3%。

Comments Accepted to ACL26 Main

2601.00417 2026-05-14 cs.LG cs.AI cs.CL cs.CV 版本更新

Deep Delta Learning

Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu

发表机构 * Princeton University（普林斯顿大学）； University of California Los Angeles（加州大学洛杉矶分校）

AI总结本文提出了一种名为Deep Delta Learning（DDL）的残差更新机制，用于改进Transformer模型中的残差流。与传统的加法累积方式不同，DDL允许每一层选择性地重写残差内容，通过学习方向读取当前状态，并与目标值进行比较，再沿相同方向进行门控修正。实验表明，DDL在语言模型中有效提升了残差流的管理能力，优于传统的残差加法方式。

Comments Project Page: https://github.com/yifanzhang-pro/deep-delta-learning

2512.01707 2026-05-14 cs.CV cs.AI cs.CL 版本更新

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal

发表机构 * University of North Carolina, Chapel Hill（北卡罗来纳大学教堂山分校）； Adobe Research（Adobe研究院）

AI总结 StreamGaze 是一个用于评估多模态大语言模型在流式视频中利用人类注视信号进行时间推理和主动理解能力的全新基准。该研究通过引入基于注视引导的过去、当前和主动推理任务，全面评估模型在实时处理视频流并预测用户意图方面的能力。研究构建了一个结合注视轨迹与视频内容的问答生成管道，生成具有时空语义的问答对，并揭示了当前模型在基于注视的时序推理和主动预测方面仍存在明显不足。

Comments Accepted to CVPR 2026 with strong scores (5/5/5) but desk-rejected after the camera-ready due to not completing all reviewing duties

2512.01242 2026-05-14 cs.CV cs.AI cs.CL 版本更新

When Diffusion Breaks Constraints: Sequential Autoregressive Generation with RL and MCTS

Zirui Zhao, Boye Niu, Harold Soh, David Hsu, Wee Sun Lee

发表机构 * Salesforce AI Research（Salesforce人工智能研究）； University of Sydney（悉尼大学）； National University of Singapore（新加坡国立大学）

AI总结该论文研究了扩散模型在受约束生成任务中的局限性，例如多机器人路径规划、分子生成和场景合成等，这些问题需要满足严格的几何或物理约束。为了解决这一问题，作者提出了一种基于强化学习和蒙特卡洛树搜索的顺序自回归生成方法，将约束生成问题转化为离散的序列生成任务，从而更有效地满足复杂的约束条件。实验表明，该方法在可行性与任务成功率方面优于传统扩散模型，为解决此类受限生成问题提供了新的思路。

2511.17031 2026-05-14 cs.LG cs.CV cs.CY 版本更新

Energy Scaling Laws for Diffusion Models: Quantifying Compute in Image Generation

Aniketh Iyengar, Jiaqi Han, Boris Ruf, Vincent Grari, Marcin Detyniecki, Stefano Ermon

发表机构 * Stanford University（斯坦福大学）； AXA AI Research（AXA人工智能研究）

AI总结本文研究了扩散模型在图像生成中的能耗扩展规律，旨在量化不同模型配置和硬件环境下的计算能耗。作者将Kaplan扩展定律应用于扩散模型，基于计算复杂度（FLOPs）预测GPU能耗，并通过实验验证了去噪过程是能耗的主要来源。研究在多种先进扩散模型和GPU架构上进行了广泛测试，证明了该方法在单一架构内具有高预测精度，并具备良好的跨架构泛化能力，为可持续AI部署提供了重要的能耗评估基础。

Comments Accepted at ACM Conference on Fairness, Accountability, and Transparency (FAccT) 2026

详情

DOI: 10.1145/3805689.3812229

英文摘要

The rapidly growing computational demands of diffusion models for image generation have raised significant concerns about energy consumption and environmental impact. While existing approaches to energy optimization focus on architectural improvements or hardware acceleration, there is a lack of principled methods to predict energy consumption across different model configurations and hardware setups. We propose an adaptation of Kaplan scaling laws to predict GPU energy consumption for diffusion models based on computational complexity (FLOPs). Our approach decomposes diffusion model inference into text encoding, iterative denoising, and decoding components, with the hypothesis that denoising operations dominate energy consumption due to their repeated execution across multiple inference steps. We conduct comprehensive experiments across four state-of-the-art diffusion models (Stable Diffusion 2, Stable Diffusion 3.5, Flux, and Qwen) on three GPU architectures (NVIDIA A100, A4000, A6000), spanning various inference configurations including resolution ($256^2$--$1024^2$), precision (fp16/fp32), step counts (10--50), and classifier-free guidance settings. Our energy scaling law achieves high predictive accuracy within individual architectures ($R^2 > 0.9$) and exhibits strong cross-architecture generalization, maintaining high rank correlations across models and enabling reliable energy estimation for unseen model--hardware combinations. These results validate the compute-bound nature of diffusion inference and establish energy consumption estimation as a necessary foundation for sustainable AI deployment planning and subsequent carbon footprint assessment.

URL PDF HTML ☆

赞 0 踩 0

2511.16868 2026-05-14 cs.CV q-bio.BM 版本更新

The Joint Gromov Wasserstein Objective for Multiple Object Matching

Aryan Tajmir Riahi, Khanh Dao Duc

发表机构 * Department of Computer Science, University of British Columbia（不列颠哥伦比亚大学计算机科学系）； Department of Mathematics, University of British Columbia（不列颠哥伦比亚大学数学系）

AI总结本文提出了一种联合格罗莫夫-沃尔夫（JGW）目标函数，旨在解决多个对象之间的匹配问题，突破了传统格罗莫夫-沃尔夫距离仅适用于单对对象匹配的限制。该方法通过扩展原始框架，实现了多个对象集合的同时匹配，并提供了一种具有点采样收敛性的非负相似性度量。实验表明，该方法在准确性和计算效率上优于其他变体，在合成数据和真实数据集上的测试显示其在几何形状和生物分子复合物等多对象匹配任务中表现优异，具有广泛的应用前景。

2510.14244 2026-05-14 eess.IV cs.AI cs.CV 版本更新

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin

发表机构 * Department of Computer Science, University of Sherbrooke（谢布鲁克大学计算机科学系）； INSA, Universite Claude Bernard Lyon 1, CNRS UMR 5220, Inserm U1206, CREATIS（里昂1大学INSA、CNRS UMR 5220、Inserm U1206、CREATIS）； Dep. of Software and Information Technology Engineering, École de technologie supérieure（蒙特利尔工程学院软件与信息技术工程系）； Institut Universitaire de France (IUF)（法国国家科学院（IUF））

AI总结该研究针对超声心动图分割中的领域自适应问题，提出了一种基于强化学习的无监督领域自适应框架RL4Seg3D。该方法通过引入新颖的奖励函数和融合策略，提升了分割结果中关键解剖标志点的精度，并在处理完整尺寸的视频输入时保持了良好的时间一致性。实验表明，该方法在无需目标域标注的情况下，显著优于传统领域自适应技术，且能提供鲁棒的不确定性估计，有助于进一步提升分割性能。

Comments 13 pages, accepted for publication in IEEE TMI

2510.11303 2026-05-14 cs.CV 版本更新

sketch2symm: Symmetry-aware sketch-to-shape generation via semantic bridging

Yan Zhou, Mingji Li, Xiantao Zeng, Jie Lin, Yuexia Zhou

发表机构 * School of Electronic Information Engineering, Foshan University, Guangdong, China（佛山大学电子信息工程学院）； School of Computer Science and Artificial Intelligence, Foshan University, Guangdong, China（佛山大学计算机科学与人工智能学院）

AI总结 Sketch2Symm 是一种基于语义桥接和对称约束的两阶段草图到三维形状生成方法，旨在解决草图输入抽象且信息稀疏带来的三维重建难题。该方法通过草图到图像的翻译增强草图的语义表示，并引入对称性先验以利用日常物体的结构规律，从而生成几何一致的三维形状。实验表明，该方法在主流草图数据集上优于现有方法，验证了其在生成质量上的有效性。

2510.03548 2026-05-14 cs.CV cs.AI 版本更新

Unmasking Puppeteers: Leveraging Biometric Leakage to Expose Impersonation in AI-Based Videoconferencing

Danial Samadi Vahdati, Tai Duc Nguyen, Ekta Prashnani, Koki Nagano, David Luebke, Orazio Gallo, Matthew Stamm

发表机构 * Drexel University（德雷克斯el大学）； NVIDIA

AI总结本文研究了基于人工智能的视频会议系统中身份伪装攻击的问题，即攻击者可通过操控传输的潜空间信息实时劫持用户的形象。为解决这一问题，作者提出了一种新型防御方法，通过利用潜空间中固有的生物特征信息，设计了一个基于姿态条件的对比编码器，能够分离身份特征并消除姿态和表情的干扰，从而在不依赖重建视频的情况下检测身份伪装。实验表明，该方法在多个生成模型上均表现出优越的检测性能，并具有实时性和良好的泛化能力。

2510.01502 2026-05-14 q-bio.NC cs.CV cs.LG 版本更新

Behavioral Geometric Supervision Aligns Video Foundation Models with Human Social Perception

Kathy Garcia, Leyla Isik

发表机构 * Department of Cognitive Science（认知科学系）； Department of Biomedical Engineering（生物医学工程系）； Johns Hopkins University（约翰霍普金斯大学）

AI总结当前视频基础模型在捕捉人类对动态社会场景的信息组织方式方面存在不足，难以准确预测人类对社会视频片段的相似性判断。本文提出行为几何监督（BGS）方法，通过约束嵌入空间的局部与全局几何结构，使其与视频间的相似性关系对齐，从而提升模型性能。实验表明，该方法显著提升了模型在人类相似性判断任务中的表现，并使模型能够捕捉人类语言嵌入模型无法体现的社会情感特征，实现了更接近人类社会感知的视频理解。

Comments v2: Major revision. Retitled; expanded from TimeSformer alone to four backbones (V-JEPA 2/2.1, TimeSformer, VideoMAE, CLIP), with V-JEPA 2.1 nearly tripling pretrained performance. Adds zero-shot PHASE transfer, attention-rollout analysis, and a language-distillation control. Data (OOO sim. judgments) & core hybrid triplet+RSA LoRA method unchanged from v1. Prepared for NeurIPS 2026 submission

2510.00929 2026-05-14 cs.CV 版本更新

Equivariant Splitting: Self-supervised learning from incomplete data

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella

发表机构 * LPENSL, CNRS, ENS de Lyon, France（LPENSL、CNRS、 Lyon 工程科学研究院、法国）； Prysm, Lyon, France（Prysm、Lyon、法国）

AI总结本文提出了一种用于不完整数据的自监督学习新方法——等变分裂，旨在解决在仅有单一不完整观测模型的情况下重建问题。该方法引入了重建网络中的等变性概念，并结合自监督分裂损失，实现了对有监督损失的无偏估计。实验表明，该方法在图像修复、加速磁共振成像、稀疏视角CT和压缩感知等任务中表现出色，尤其适用于正向模型高度欠秩的场景。

2509.23056 2026-05-14 cs.CV cs.LG 版本更新

FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection

Ben Liang, Hongguang Wei, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen

发表机构 * School of Electronic Engineering and Optoelectronic Technology, Nanjing University of Science and Technology（南京理工大学电子工程与光电子技术学院）

AI总结本文提出FMC-DETR，一种用于遥感图像中空中视角目标检测的频率解耦融合框架，旨在解决高分辨率图像中微小目标检测因视觉线索弱和全局上下文建模不足而面临的问题。该方法引入了Wavelet Kolmogorov-Arnold Transformer（WeKat）作为主干网络，结合小波变换和Kolmogorov-Arnold网络以增强浅层特征的全局低频结构感知和多尺度依赖的非线性建模；同时设计了多域特征协调模块（MDFC）和紧凑部分融合模块（CPF），分别用于优化跨尺度特征融合和提升小目标检测性能。实验表明，FMC-DETR在多个遥感基准数据集上取得了最先进的检测效果。

2509.15642 2026-05-14 cs.CV 版本更新

UNIV: Unified Foundation Model for Infrared and Visible Modalities

Fangyuan Mao, Shuo Wang, Jilin Mei, Shun Lu, Chen Min, Fuyang Liu, Xiaokun Feng, Meiqi Wu, Yu Hu

发表机构 * Research Center for Intelligent Computing Systems, CAS ICT（智能计算系统研究所以及中国科学院信息科技研究院）； University of Chinese Academy of Sciences（中国科学院大学）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）

AI总结本文提出UNIV，一种统一的红外与可见光基础模型，旨在解决跨模态感知中的模态偏差问题。核心方法为Patch Cross-modal Contrastive Learning（PCCL），通过自监督学习构建统一的跨模态特征空间，提升语义对齐与类别可分性。此外，研究还构建了目前最全面的可见光-红外数据集MVIP，并在多个任务上验证了UNIV的优越性能。

2509.13858 2026-05-14 cs.CV 版本更新

EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics

Qianxin Xia, Jiawei Du, Guoming Lu, Zhiyong Shu, Jielei Wang

发表机构 * University of Electronic Science and Technology of China（电子科技大学）； Centre for Frontier AI Research, Agency for Science, Technology and Research（前沿人工智能研究中心，科技研究局）

AI总结本文提出了一种名为EDITS的新框架，旨在通过利用图像中的隐含文本语义来提升数据集蒸馏的效果。该方法结合视觉语言模型生成的外部文本与图像特征，构建语义聚类缓冲区，并通过局部语义感知模块选择代表性样本生成图像与文本原型，最终利用扩散模型生成高质量的合成数据集。实验表明，该方法在保持模型性能的同时显著提升了蒸馏效率。

2509.08461 2026-05-14 cs.LG cs.AI cs.CV hep-ex 版本更新

Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

发表机构 * Department of Computer Science, University of California, Irvine, CA, USA（计算机科学系，加州大学欧文分校，加州，美国）； Department of Physics, University of California, Irvine, CA, USA（物理系，加州大学欧文分校，加州，美国）

AI总结本文研究了将视觉语言模型（VLM）应用于高能物理实验中中微子事件分类的问题，提出了一种基于微调LLaMA 3.2的VLM方法，并与卷积神经网络（CNN）和视觉变换器（ViT）进行了对比。实验表明，基于变换器的模型在分类准确率和鲁棒性方面优于传统CNN，而VLM通过引入文本或语义信息，进一步提升了预测的可解释性和推理能力。该研究展示了VLM作为物理事件分类通用框架的潜力，为中微子物理实验中的多模态推理提供了新思路。

Comments Accepted for publication in Communications Physics (Nature Portfolio)

2509.00626 2026-05-14 cs.CV cs.AI 版本更新

Towards Methane Detection Onboard Satellites

Maggie Chen, Hala Lamdouar, Luca Marini, Laura Martínez-Ferrer, Chris Bridges, Giacomo Acciarini

发表机构 * University of Oxford（牛津大学）； Delft University of Technology（代尔夫特理工大学）； Universitat de València（瓦伦西亚大学）； University of Surrey（萨里大学）； European Space Agency (ESA)（欧洲航天局）

AI总结本文研究了如何在卫星上利用机器学习技术实现甲烷气体的快速检测，以支持气候变化的及时应对。研究提出了一种新的方法，无需传统图像预处理步骤，直接使用未正射校正的高光谱数据进行训练，取得了与传统方法相当的检测效果。此外，研究还展示了基于正射校正数据训练的模型在性能上优于传统匹配滤波方法，并公开了数据集和代码，为相关研究提供了重要资源。

2508.19651 2026-05-14 cs.CV 版本更新

Scalable Object Detection in the Car Interior With Vision Foundation Models

Sebastian Schmidt, Bálint Mészáros, Ahmet Firintepe, Stephan Günnemann

发表机构 * Technical University of Munich, School of Computation, Information and Technology（慕尼黑技术大学，计算、信息与技术学院）； BMW Group（宝马集团）

AI总结本文研究了如何在车载环境中高效地进行车内物体检测与定位，以提升智能助手的响应质量。为解决车载系统计算资源受限的问题，作者提出了一种基于视觉基础模型的分布式检测框架 ODAL，将计算任务分配到车载端与云端，从而实现高效部署。研究还引入了 ODALbench 评估指标，并通过微调轻量模型 LLaVA 1.5 7B 实现了显著性能提升，其检测准确率较基线提升了 71%，并在关键指标上超越了 GPT-4o 模型。

2508.07642 2026-05-14 cs.AI cs.CL cs.CV 版本更新

Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

发表机构 * Michigan State University（密歇根州立大学）； ESAT-PSI, KU Leuven（KU莱顿大学ESAT-PSI实验室）

AI总结视觉与语言导航（VLN）任务要求智能体理解自然语言指令并在复杂的3D环境中进行导航，当前方法在面对需要复杂时空推理的未知场景时仍存在较大挑战。本文提出SkillNav框架，通过将导航分解为一组可解释的原子技能，并由专门的智能体分别处理，引入结构化的技能推理机制。此外，研究构建了一个合成数据生成管道以支持无监督技能训练，并设计了一种基于视觉语言模型的路由器，动态选择最合适的智能体执行任务，显著提升了模型在新型指令风格和未知环境中的泛化能力。

Comments Accepted by ACL 2026 Main Conference

2507.01908 2026-05-14 cs.CV 版本更新

Reasoning to Edit: Hypothetical Instruction-Based Image Editing with Visual Reasoning

Qingdong He, Xueqin Chen, Chaoyi Wang, Yanjie Pan, Xiaobin Hu, Zhenye Gan, Yabiao Wang, Chengjie Wang, Xiangtai Li, Jiangning Zhang

发表机构 * Tencent Youtu Lab（腾讯云图实验室）； Sichuan University（四川大学）； University of the Chinese Academy of Sciences（中国科学院大学）； Fudan University（复旦大学）； Zhejiang University（浙江大学）； National University of Singapore（新加坡国立大学）； Nanyang Technological University（南洋理工大学）

AI总结该论文提出了一种基于视觉推理的假设指令图像编辑方法，旨在解决现有图像编辑技术在处理复杂隐含指令时的不足。研究引入了Reason50K数据集和ReasonBrain框架，前者包含5万余个样本，涵盖物理、时间、因果和故事推理等四类场景，后者结合多模态大语言模型和扩散模型，通过细粒度推理线索提取模块和跨模态增强模块，实现对隐含指令的精准理解和编辑。实验表明，该方法在推理场景中表现优异，并具备良好的零样本泛化能力。

Comments Accepted by ICML2026

2507.00990 2026-05-14 cs.RO cs.AI cs.CV 版本更新

Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li

发表机构 * UIUC（伊利诺伊大学香槟分校）； UC Irvine（加州大学尔湾分校）； Columbia University（哥伦比亚大学）

AI总结本文提出了一种名为 RIGVid 的系统，使机器人能够通过模仿人工智能生成的视频完成复杂的操作任务，如倒水、擦拭和混合，而无需任何物理演示或机器人特定的训练。系统通过语言指令和初始场景图像生成潜在演示视频，并利用视觉语言模型筛选符合指令的视频，再通过6D姿态追踪提取物体轨迹并映射到机器人上。实验表明，生成的视频在实际任务中表现优异，且生成质量越高效果越佳，优于基于关键点预测等更简洁的方法。

Comments In ICLR 2026. Website: https://rigvid-robot.github.io/

2506.09522 2026-05-14 cs.CV cs.AI cs.CL 版本更新

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding

Beomsik Cho, Jaehyung Kim

发表机构 * Yonsei University（延世大学）

AI总结该研究探讨了视觉信息在大视觉语言模型（LVLMs）解码过程中的作用，发现即使在出现幻觉的情况下，视觉token仍包含有意义的视觉信息，并且其语义可以在文本空间中被显式表达。基于此，研究提出了一种无需训练的解码方法ReVisiT，通过将视觉token投影到文本分布中，并在解码过程中动态选择最相关的视觉token来引导文本生成，从而提升模型对视觉语义的融合能力。实验表明，ReVisiT在多个基准测试中表现优异，同时减少了计算成本。

Comments ACL 2026 Main Conference (Oral). 30 pages, 10 figures. Code: https://github.com/bscho333/ReVisiT

2505.22445 2026-05-14 cs.CV cs.AI 版本更新

NFR: Neural Feature-Guided Non-Rigid Shape Registration

Zhangquan Chen, Puhua Jiang, Mingze Sun, Ruqi Huang

发表机构 * Tsinghua Shenzhen International Graduate School（清华大学深圳国际研究生院）

AI总结本文提出了一种基于神经特征引导的非刚性形状配准新框架，能够在无需对应关系标注的情况下，有效应对输入形状之间的显著非刚性变形和部分遮挡问题。该方法将深度学习形状匹配网络提取的神经特征融入迭代几何配准流程，既提升了对应关系的准确性和语义意义，又通过动态更新和一致性先验过滤增强了鲁棒性。实验表明，即使仅使用少量训练样本，该方法在多个非刚性点云配准和部分形状匹配基准上均达到最优性能，并能处理传统方法难以应对的复杂形变场景。

Comments 18 pages, 16 figures. arXiv admin note: substantial text overlap with arXiv:2311.04494

2505.05376 2026-05-14 cs.CV 版本更新

GeomHair: Reconstruction of Hair Strands from Colorless 3D Scans

Rachmadio Noval Lazuardi, Artem Sevastopolsky, Egor Zakharov, Matthias Niessner, Vanessa Sklyarova

发表机构 * Technical University of Munich（慕尼黑技术大学）； ETH Zürich（苏黎世联邦理工学院）； Max Planck Institute for Intelligent Systems（智能系统马克斯·普朗克研究所）

AI总结本文提出了一种从无颜色的3D扫描数据中直接重建发丝的新方法，通过多模态发丝方向提取技术实现。该方法利用神经网络检测扫描渲染中的表面特征，并结合扩散先验模型，仅依赖几何信息即可准确重建简单或复杂的发型。研究还构建了包含400个真实扫描重建发丝的Strands400数据集，为后续生成模型训练和计算机图形学应用提供了重要资源。

Comments 15 pages, 9 figures, 1 table

2504.14129 2026-05-14 cs.CV 版本更新

PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution

Yaning Zhang, Jiahe Zhang, Chunjie Ma, Weili Guan, Tian Gan, Zan Gao

发表机构 * Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences)（计算机科学与技术学院，齐鲁工业大学（山东省科学院））； Shandong University of Science and Technology（山东科技大学）； Shandong Artificial Intelligence Institute, Qilu University of Technology (Shandong Academy of Sciences)（山东省人工智能研究院，齐鲁工业大学（山东省科学院））； School of Electronics and Information Engineering, Harbin Institute of Technology（电子与信息工程学院，哈尔滨工业大学（深圳））； School of Computer Science and Technology, Shandong University（计算机科学与技术学院，山东大学）

AI总结本文提出了一种基于动态对比学习的解析感知视觉语言模型（PVLM），用于实现零样本深度伪造归因（ZSDFA），以有效追踪未见过的先进生成模型（如扩散模型）所产生的伪造人脸来源。该方法通过引入面部解析信息，捕捉生成模型在保留源人脸属性方面的差异，从而提升归因的细粒度与泛化能力。此外，研究还构建了一个新的零样本深度伪造归因基准，并设计了对比中心损失函数，进一步增强了模型对未知生成器的追踪性能，实验表明该方法在相关基准上优于现有最先进方法。

Comments Accepted to IEEE Transactions on Dependable and Secure Computing 2026

详情

英文摘要

The challenge of tracing the source attribution of forged faces has gained significant attention due to the rapid advancement of generative models. However, existing deepfake attribution (DFA) works primarily focus on the interaction among various domains in vision modality, and other modalities such as texts and face parsing are not fully explored. Besides, they tend to fail to assess the generalization performance of deepfake attributors to unseen advanced generators like diffusion in a fine-grained manner. In this paper, we propose a novel parsing-aware vision language model with a dynamic contrastive learning (PVLM) method for zero-shot deepfake attribution (ZSDFA), which facilitates effective and fine-grained traceability to unseen advanced generators. Specifically, we conduct a novel and fine-grained ZS-DFA benchmark to evaluate the attribution performance of deepfake attributors to unseen advanced generators like diffusion. Besides, we propose an innovative PVLM attributor based on the vision-language model to capture general and diverse attribution features. We are motivated by the observation that the preservation of source face attributes in facial images generated by GAN and diffusion models varies significantly. We propose to employ the inherent facial attributes preservation differences to capture face parsing-aware forgery representations. Therefore, we devise a novel parsing encoder to focus on global face attribute embeddings, enabling parsing-guided DFA representation learning via dynamic vision-parsing matching. Additionally, we present a novel deepfake attribution contrastive center loss to pull relevant generators closer and push irrelevant ones away, which can be introduced into DFA models to enhance traceability. Experimental results show that our model exceeds the state-of-the-art on the ZS-DFA benchmark via various protocol evaluations.

URL PDF HTML ☆

赞 0 踩 0

2503.19719 2026-05-14 cs.LG cs.AI cs.CV 版本更新

On What Depends the Robustness of Multi-source Models to Missing Data in Earth Observation?

Francisco Mena, Diego Arenas, Miro Miranda, Andreas Dengel

发表机构 * University of Kaiserslautern-Landau (RPTU)（凯撒斯劳滕-兰道大学（RPTU））； German Research Center for Artificial Intelligence (DFKI)（德国人工智能研究中心（DFKI））

AI总结本文研究了多源模型在遥感观测中面对数据缺失时的鲁棒性影响因素。通过评估六种先进多源模型在单一数据源缺失或仅有一个数据源可用时的预测性能，发现模型效果与任务特性、数据源互补性及模型设计密切相关。研究还发现，去除某些数据源反而可能提升预测性能，挑战了“数据越多越好”的传统假设，引发了对模型复杂性和数据必要性的深入思考。

Comments Accepted at IEEE International Geoscience and Remote Sensing Symposium 2025

Journal ref 2025 IEEE International Geoscience and Remote Sensing Symposium

2412.06341 2026-05-14 cs.CV cs.AI 版本更新

Visual Accommodation: Rethinking Image Scale as a Learnable Variable for Object Detection

Daeun Seo, Hoeseok Yang, Sihyeong Park, Hyungshin Kim

发表机构 * Chungnam National University（Chungnam 国立大学）； Santa Clara University（Santa Clara 大学）； Korea Electronics Technology Institute（韩国电子技术研究所）

AI总结本文提出了一种名为Ciliary-DETR的框架，旨在通过学习可变的图像尺度来提升目标检测在测试阶段的适应能力，类似于生物视觉中的调节机制。该方法引入了一个轻量级的尺度预测器，能够在不同输入尺度下动态估计最优的测试尺度因子，从而提高检测的灵活性和鲁棒性。通过引入参数化的尺度优化目标，解决了在标准训练设置下最优输入尺度不可观测的问题，实现了高效的一次性推理过程。

Comments 23 pages, 11 figures

2407.15512 2026-05-14 cs.LG cs.AI cs.CV 版本更新

Increasing the Robustness of Model Predictions to Missing Sensors in Earth Observation

Francisco Mena, Diego Arenas, Andreas Dengel

发表机构 * University of Kaiserslautern-Landau, Kaiserslautern, Germany（凯撒斯劳滕-兰道大学，凯撒斯劳滕，德国）； German Research Center for Artificial Intelligence, Kaiserslautern, Germany（德国人工智能研究中心，凯撒斯劳滕，德国）

AI总结该研究旨在提高地球观测中多传感器机器学习模型在传感器缺失情况下的预测鲁棒性。作者提出了两种新方法：输入传感器丢弃（ISensD）和集成传感器不变（ESensI），通过实验验证了它们在三个多传感器时序数据集上的有效性。研究发现，集成多传感器模型在面对传感器缺失时表现最为稳健，而ISensD中的传感器丢弃机制也展现出良好的鲁棒性。

Comments Accepted at the MACLEAN workshop in the ECML/PKDD 2024

Journal ref Machine Learning and Principles and Practice of Knowledge Discovery in Databases. ECML PKDD 2024

2403.11247 2026-05-14 cs.CV cs.RO 版本更新

Compact 3D Gaussian Splatting For Dense Visual SLAM

Tianchen Deng, Chang Nie, Shuhong Liu, Wenhua Wu, Jianfei Yang, Shenghai Yuan, Jiuming Liu, Danwei Wang, Hesheng Wang

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Nanyang Technological University（南洋理工大学）； The University of Tokyo（东京大学）； Harvard University（哈佛大学）； University of Cambridge（剑桥大学）

AI总结本文提出了一种紧凑的3D高斯溅射SLAM系统，旨在解决现有方法中因大量冗余高斯椭球体导致的高内存消耗和训练速度慢的问题。通过引入基于滑动窗口的掩码策略和几何码本压缩技术，有效减少了高斯椭球体的数量和参数规模。实验表明，该方法在保持场景重建质量的同时，显著提升了训练和渲染速度。

Comments Accepted by IJCV 2026

2308.10058 2026-05-14 cs.CV 版本更新

R-C-P Method: An Autonomous Volume Calculation Method Using Image Processing and Machine Vision

MA Muktadir, Sydney Parker, Sun Yi

AI总结本文提出了一种基于图像处理和机器视觉的自主体积计算方法——R-C-P方法，旨在替代传统深度传感器（如LiDAR）以适应复杂环境下的应用需求。该方法利用两台2D摄像头实时测量矩形物体的尺寸，通过行-列-像素（R-C-P）策略结合边缘检测技术，实现了对物体表面积及不连续边缘或体积的检测。实验验证了该方法的有效性，并提供了基于摄像头与物体距离的尺寸计算公式，为实际物体的自主测量提供了可行的视觉解决方案。

Journal ref Communications in Computer and Information Science, vol. 2939, Springer, Cham (2026)

2304.11193 2026-05-14 cs.RO cs.AI cs.CV 版本更新

Multi-Modal World Model for Physical Robot Interactions: Simultaneous Visual and Tactile Predictions for Enhanced Accuracy

Willow Mandil, Amir Ghalamzan-E

发表机构 * University of Lincoln（林肯大学）； University of Sheffield（谢菲尔德大学）

AI总结本文研究了在物理机器人交互中融合视觉与触觉信息的世界模型预测方法，旨在提升对复杂环境中机器人操作结果的预测准确性。通过引入两个新的机器人推物数据集，作者展示了在物理不确定性较高的场景下，结合视觉与触觉信息能显著提高预测性能，而在视觉信息已足够明确的情况下，触觉带来的提升有限。该工作为构建更鲁棒的机器人世界模型提供了新的数据支持与方法启示。

Comments This paper is accepted for publication in Robotics and Autonomous Systems

1911.09301 2026-05-14 cs.CV 版本更新

Image Aesthetics Assessment using Multi Channel Convolutional Neural Networks

Nishi Doshi, Gitam Shikhenawis, Suman K Mitra

发表机构 * Dhirubhai Ambani Institute of Information and Communication Technology（迪鲁巴希·阿姆巴尼信息与通信技术研究所）； C R Rao Advanced Institute of Mathematics, Statistics and Computer Science（C R Rao高级数学、统计与计算机科学研究所）

AI总结本文研究了图像美学评估问题，旨在将图像分类为高质量或低质量。作者提出了一种多通道卷积神经网络方法，除使用原始图像外，还引入了图像裁剪和显著性图作为输入，以提升分类效果。实验表明，该方法在常用AVA数据集上的性能优于现有方法，具有重要的应用价值。

Journal ref Computer Vision and Image Processing. CVIP 2019

2605.12619 2026-05-14 q-bio.NC cs.CV 版本更新

Human face perception reflects inverse-generative and naturalistic discriminative objectives

Wenxuan Guo, Heiko H. Schütt, Kamila Maria Jozwik, Katherine R. Storrs, Nikolaus Kriegeskorte, Tal Golan

发表机构 * Department of Psychology（心理学系）； Department of Behavioural and Cognitive Sciences（行为与认知科学系）； MRC Cognition and Brain Sciences Unit（认知与脑科学单位）； School of Psychology（心理学系）； Department of Neuroscience（神经科学系）； Department of Industrial Engineering and Management（工业工程与管理系）； School of Brain Sciences and Cognition（脑科学与认知系）

AI总结该研究探讨了人类面孔识别的感知机制，通过比较六种结构相同但训练任务不同的深度神经网络模型，揭示了人类面孔感知的计算特性。研究发现，强调高层不变结构的模型（如逆渲染、人脸识别或物体分类训练的模型）最符合人类对人脸差异的判断，且基于自然图像训练的模型表现优于合成图像训练的模型。这些结果表明，人类面孔感知可能依赖于推断面部外观潜在原因、排除干扰变量，并受自然图像统计特性调节的机制。

Comments 33 pages, 10 figures, 4 tables

2605.12608 2026-05-14 cs.CV 版本更新

A Data Efficiency Study of Synthetic Fog for Object Detection Using the Clear2Fog Pipeline

Mohamed Ahmed Mohamed, Xiaowei Huang

发表机构 * Waymo Open Dataset（Waymo开放数据集）； GitHub

AI总结本文研究了在恶劣天气下提升目标检测性能的数据效率问题，提出了一种基于物理原理的端到端合成雾气生成方法Clear2Fog（C2F），能够在保持相机与激光雷达传感器一致性的同时，在晴朗天气数据集上生成逼真的雾天图像。通过引入单目深度估计和新型大气光估计方法，C2F有效克服了现有技术中的结构伪影和色偏问题。实验表明，使用C2F生成的多样化雾天数据进行训练，能够显著提升模型在真实雾天环境中的检测性能。

Comments Project code and experimental configs available at https://github.com/mmohamed28/Clear2Fog

2605.12587 2026-05-14 cs.CV 版本更新

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

Jisu Nam, Jahyeok Koo, Soowon Son, Jaewoo Jung, Honggyu An, Junhwa Hur, Seungryong Kim

发表机构 * KAIST AI（韩国科学技术院人工智能研究所）； Google DeepMind（谷歌DeepMind）

AI总结本文提出了一种名为TrackCraft3R的方法，旨在将预训练的视频扩散变换器（video DiT）重新用于单目视频的密集3D跟踪任务。通过引入双潜在表示和时间RoPE对齐技术，该方法将视频DiT的逐帧生成模式转换为以参考帧为锚点的跟踪范式，从而在单次前向传播中预测出参考帧中每个像素在时间上的跟踪点图及其可见性。实验表明，TrackCraft3R在标准的稀疏和密集3D跟踪基准上取得了最先进的性能，同时在速度和内存消耗方面也优于现有方法。

Comments Project page and code are available at https://cvlab-kaist.github.io/TrackCraft3r/

详情

英文摘要

Dense 3D tracking from monocular video is fundamental to dynamic scene understanding. While recent 3D foundation models provide reliable per-frame geometry, recovering object motion in this geometry remains challenging and benefits from strong motion priors learned from real-world videos. Existing 3D trackers either follow iterative paradigms trained from scratch on synthetic data or fine-tune 3D reconstruction models learned from static multi-view images, both lacking real-world motion priors. Pre-trained video diffusion transformers (video DiTs) offer rich spatio-temporal priors from internet-scale videos, making them a promising foundation for 3D tracking. However, their frame-anchored formulation, which generates each frame's content, is fundamentally mismatched with reference-anchored dense 3D tracking, which must follow the same physical points from a reference frame across time. We present TrackCraft3R, the first method to repurpose a video DiT as a feed-forward dense 3D tracker. Given a monocular video and its frame-anchored reconstruction pointmap, TrackCraft3R predicts a reference-anchored tracking pointmap that follows every pixel of the first frame across time in a single forward pass, along with its visibility. We achieve this through two designs: (i) a dual-latent representation that uses per-frame geometry latents and reference-anchored track latents as dense queries, and (ii) temporal RoPE alignment, which specifies the target timestamp of each track latent. Together, these designs convert the per-frame generative paradigm of video DiTs into a reference-anchored tracking formulation with LoRA fine-tuning. TrackCraft3R achieves state-of-the-art performance on standard sparse and dense 3D tracking benchmarks, while running 1.3x faster and using 4.6x less peak memory than the strongest prior method. We further demonstrate robustness to large motions and long videos.

URL PDF HTML ☆

赞 0 踩 0

2605.12586 2026-05-14 cs.CV cs.AI cs.DB 版本更新

3D Primitives are a Spatial Language for VLMs

Junze Liu, Kun Qian, Florian Dubost, Kai Zhong, Arvind Srinivasan, Nan Chen, Anping Wang, Sam Zhang, Alejandro Mottini, Qingjun Cui, Tian Wang

发表机构 * Unity Technologies

AI总结该研究探讨了视觉语言模型（VLMs）在空间理解上的矛盾表现，并提出以3D几何基元（如立方体、球体等）作为中间表示来提升其空间推理能力。研究引入了SpatialBabel基准，评估了多种VLM在基于基元的3D场景重建任务中的表现，并提出了两种新方法：无需训练的Code-CoT推理策略和自监督的S³-FT微调方法，显著提升了模型在多个空间理解任务上的性能，验证了几何基元在代码中的诊断与迁移价值。

详情

英文摘要

Vision-language models (VLMs) exhibit a striking paradox: they can generate executable code that reconstructs a 3D scene from geometric primitives with correct object counts, classes, and approximate positions, yet the same models fail at simpler spatial questions on the same image. We show that 3D geometric primitives (cubes, spheres, cylinders, expressed in executable code) serve as a powerful intermediate representation for spatial understanding, and exploit this through three contributions. First, we introduce \textbf{\textsc{SpatialBabel}}, a benchmark evaluating fourteen VLMs on primitive-based 3D scene reconstruction across six \emph{scene-code languages} (programming languages and declarative formats for 3D primitive scenes), revealing that a single model's object-detection F1 can vary by up to $5.7\times$ across languages. Second, we propose \textbf{Code-CoT} (Code Chain-of-Thought), a training-free inference strategy that routes spatial reasoning through primitive-based code generation. Code-CoT lifts the SpatialBabel-QA-Score by up to $+6.4$\% on primitive scenes and real-photo CV-Bench-3D accuracy by $+5.0$\% for VLMs with strong coding capabilities. Third, we propose \textbf{S$^{3}$-FT} (Self-Supervised Spatial Fine-Tuning), which self-supervisedly distills primitive spatial knowledge into general visual reasoning by parsing the model's own Three.js primitive-reconstructions into structured annotations and fine-tuning on the result, with \emph{no human labels and no teacher model}. Training on primitive images alone, S$^3$-FT improves Qwen3-VL-8B by $+4.6$ to $+8.6$\% on SpatialBabel-Primitive-QA, $+9.7$\% on CV-Bench-2D, and $+17$\% on HallusionBench; the recipe transfers across model families. These results establish geometric primitives in code as both a diagnostic and a transferable spatial vocabulary for VLMs. We will release all artifacts upon publication.

URL PDF HTML ☆

赞 0 踩 0

2605.12575 2026-05-14 eess.IV cs.AI cs.CV 版本更新

Are Compact Rationales Free? Measuring Tile Selection Headroom in Frozen WSI-MIL

Hyun Do Jung, Jungwon Choi, Soojung Choi, Yujin Oh, Hwiyoung Kim

发表机构 * Department of Artificial Intelligence, Yonsei University（延世大学人工智能系）； Kim Jaechul Graduate School of AI, KAIST（金 Jaechul人工智能研究生院，韩国科学技术院）； Department of Integrative Medicine, College of Medicine, Yonsei University（延世大学医学院整合医学系）； Department of Biomedical Systems Informatics, College of Medicine, Yonsei University（延世大学医学院生物医学系统信息学系）； H-Data Strategy Center, Hallym University Chuncheon Sacred Heart Hospital（翰林大学春川圣心医院H-Data战略中心）

AI总结本文研究了在冻结的全切片图像（WSI）多实例学习（MIL）分类器中，能否从少量输出一致的图像块中恢复出滑动级预测结果，从而生成紧凑的后验解释。为此，作者提出了一种轻量级的解释层FOCI，通过训练使其能够从保留或删除的图像块子集中提取足够信息，并引入选择余量指数（SHI）进行评估。实验表明，不同MIL模型对紧凑解释的支持程度不同，FOCI能够有效减少所需图像块数量，并为模型解释和审计提供了一种新的工具。

2605.12574 2026-05-14 cs.CV cs.AI 版本更新

DistractMIA: Black-Box Membership Inference on Vision-Language Models via Semantic Distraction

Hongyi Tang, Zhihao Zhu, Yi Yang

发表机构 * The Hong Kong University of Science and Technology（香港科学与技术大学）

AI总结本文研究了如何通过语义干扰技术，在仅能访问视觉语言模型生成文本输出的黑盒场景下，对其训练数据进行成员推理攻击。提出的方法DistractMIA通过在输入图像中插入已知语义干扰物，并分析模型生成文本的变化，从而判断样本是否属于训练数据。该方法无需访问模型内部信息，仅依赖输出结果，实验表明其在多个视觉语言模型和基准数据集上均优于现有方法，并在医疗图像任务中展现出良好的泛化能力。

Comments 23 pages, 8 figures

2605.12573 2026-05-14 cs.CV cs.AI cs.LG 版本更新

Improving Diffusion Posterior Samplers with Lagged Temporal Corrections for Image Restoration

Davide Evangelista, Elena Morotti, Francesco Pivi, Maurizio Gabbrielli

发表机构 * Dept. of Computer Science and Engineering（计算机科学与工程系）； University of Bologna（博洛尼亚大学）； Dept. of Political and Social Sciences（政治与社会科学系）

AI总结本文研究了如何改进基于扩散的后验采样（PS）方法在图像恢复任务中的性能。作者从动力学角度重新诠释PS，提出了一种结合二阶离散化和残差修正的新型方法LAMP，通过引入滞后时间修正来提升采样过程的稳定性与准确性。实验表明，LAMP在多个图像恢复任务中优于现有方法，且无需增加去噪评估次数。

Comments 9 Figures, 9 Tables, Submitted to a conference

2605.12571 2026-05-14 cs.CV cs.AI 版本更新

VideoSEAL: Mitigating Evidence Misalignment in Agentic Long Video Understanding by Decoupling Answer Authority

Chenhao Qiu, Yechao Zhang, Xin Luo, Shien Song, Xusheng Liu

发表机构 * Nanyang Technological University, Singapore（南洋理工大学，新加坡）

AI总结本文研究了长期视频问答任务中由于证据不一致导致的性能问题，提出了一种名为VideoSEAL的解耦框架，通过将规划与回答权威性分离，提升了答案准确性和证据对齐度。该方法引入时间与语义双重诊断指标，揭示了现有模型在推理和训练过程中存在的压力源，并通过像素级验证机制有效缓解了证据不一致问题。实验表明，该框架在多个长期视频基准测试中表现优异，且具备良好的扩展性和模块化升级能力。

Comments Accepted to ICML 2026. 33 pages, 13 figures. Code and models are available at https://github.com/Echochef/VideoSEAL

2605.12570 2026-05-14 cs.CV 版本更新

M3Net: A Macro-to-Meso-to-Micro Clinical-inspired Hierarchical 3D Network for Pulmonary Nodule Classification

Jinyue Li, Yuzhou Yu, Jingjing Yang, Meng Fu, Yani Zhang, Shuyao He, Dianlong Ge, Xin Ning, Yannan Chu, Qiankun Li

发表机构 * Hefei Cancer Hospital of CAS, Institute of Health and Medical Technology, Hefei Institutes of Physical Science, Chinese Academy of Sciences（中国科学院合肥医疗健康研究院、健康与医疗技术研究所、物理研究所）； University of Science and Technology of China（中国科学技术大学）； Graduate School, Bengbu Medical College（蚌埠医疗学院研究生院）； Department of Pulmonary and Critical Care Medicine, The First Affiliated Hospital of USTC, Division of Life Sciences and Medicine, University of Science and Technology of China (USTC)（中国科学技术大学附属第一医院呼吸与危重症医学科、生命科学与医学学院）； Northeastern University（东北大学）； Institute of Semiconductors, Chinese Academy of Sciences（中国科学院半导体研究所）； College of Computing and Data Science (CCDS), Nanyang Technological University（南洋理工大学计算与数据科学学院）

AI总结肺结节的良恶性分类在肺部癌症早期筛查中具有重要意义，但因其多尺度和异质性特征而极具挑战。为此，本文提出M3Net，一种受放射科医生分层诊断流程启发的三维网络，通过整合从细粒度结构到全局解剖关系的多尺度上下文信息，实现更准确的分类。该网络采用分层输入结构和跨尺度语义一致性机制，显著提升了模型性能和可解释性，在公开数据集和自建临床数据集上的实验结果表明其性能优于现有方法。

Comments Published in Information Fusion (2026), 15 pages, 5 figures

Journal ref Information Fusion, 2026

2605.12562 2026-05-14 eess.IV cs.AI cs.CV 版本更新

Uncovering Latent Pathological Signatures in Pulmonary CT via Cross-Window Knowledge Distillation

Bo Peng, Wujian Xu, Kun Wang, Ximing Liao, Na Wang, Daqian Shi, Tian Li, Jing Gao, Johan Thygesen, Yingqun Ji, Honghan Wu

发表机构 * Institute of Health Informatics, University College London（伦敦大学学院健康信息学研究所）； Department of Pulmonary and Critical Care Medicine, Shanghai East Hospital, School of Medicine, Tongji University（同济大学医学院 pulmonary and critical care medicine 部门，上海东方医院）； Queen Mary University of London（伦敦女王玛丽大学）； School of Health and Wellbeing, University of Glasgow（格拉斯哥大学健康与福祉学院）

AI总结该研究针对多窗口肺部CT影像分析中现有深度学习方法未能有效融合不同密度结构信息的问题，提出了一种跨窗口知识蒸馏框架，通过让学生编码器从在最具信息量窗口上训练的教师模型中学习潜在的临床先验知识。实验表明，该方法在三个数据集上显著提升了各窗口的AUC指标，并实现了高达0.9960的集成AUC，展示了其在肺部CT多窗口分析中的优越性能和泛化能力。

2605.12560 2026-05-14 eess.IV cs.CV cs.LG 版本更新

Brain Tumor Classification in MRI Images: A Computationally Efficient Convolutional Neural Network

Md Fahimul Kabir Chowdhury, Jannatul Ferdous

发表机构 * Department of Computer Science and Engineering, University of North Texas, USA（北卡罗来纳州立大学计算机科学与工程系）； Department of Electrical and Electronic Engineering, International Islamic University Chittagong, Bangladesh（伊斯兰国际大学查塔格昂分校电子与电气工程系）

AI总结本文提出了一种计算效率高的卷积神经网络（CNN），用于对MRI图像中的脑肿瘤进行多类别分类，包括胶质瘤、脑膜瘤、垂体瘤和无肿瘤四种情况。该模型通过高效的特征提取和优化的训练策略，在两个公开数据集上分别达到了99.03%和99.28%的分类准确率，以及99.88%和99.94%的ROC得分，且参数数量远少于主流预训练模型。相比现有先进模型，该方法在保持高分类性能的同时显著降低了计算开销，具有在临床环境中作为实用诊断辅助工具的潜力。

Journal ref 2025 IEEE International Conference on Biomedical Engineering, Computer and Information Technology for Health (BECITHCON), pp. 633-638, 2025

2605.12556 2026-05-14 cs.CV 版本更新

M2Retinexformer: Multi-Modal Retinexformer for Low-Light Image Enhancement

Youssef Aboelwafa, Hicham G. Elmongui, Marwan Torki

发表机构 * Alexandria University, Egypt（亚历山大大学，埃及）

AI总结低光图像增强因噪声放大、伪影和色彩失真等复杂退化问题而具有挑战性。本文提出了一种多模态Retinexformer（M2Retinexformer）框架，通过引入深度线索、亮度先验和语义特征，在渐进式优化流程中提升增强效果。该方法利用跨模态注意力机制融合多尺度信息，并通过自适应门控机制动态平衡光照引导的自注意力与跨注意力，实验表明其在多个基准数据集上优于现有方法。

Comments Accepted at 2026 IEEE International Conference on Image Processing (ICIP)

2605.12550 2026-05-14 cs.CV cs.AI 版本更新

SSDA: Bridging Spectral and Structural Gaps via Dual Adaptation for Vision-Based Time Series Forecasting

Mingrui Zhang, Hanchen Yang, Wengen Li, Xudong Jiang, Yichao Zhang, Jihong Guan, Shuigeng Zhou

AI总结该论文研究了基于视觉模型的时间序列预测问题，指出将时间序列渲染为图像后，仍存在光谱和结构上的差距，限制了预训练视觉模型的性能。为此，作者提出SSDA方法，通过光谱幅度对齐和结构引导的低秩适配，分别在数据和模型层面弥补这些差距，从而显著提升时间序列预测效果。实验表明，SSDA在多个真实数据集上优于现有方法，表现出良好的泛化能力。

2605.12549 2026-05-14 cs.CV 版本更新

What Happens Before Decoding? Prefill Determines GUI Grounding in VLMs

Jiaping Lin, Fei Shen, Junzhe Li, Ping Nie, Fei Yu, Ming Li, Haizhou Li

发表机构 * Guangming Laboratory（光明实验室）； National University of Singapore（新加坡国立大学）； Peking University（北京大学）； University of Waterloo（滑铁卢大学）； The Chinese University of Hong Kong (Shenzhen)（香港中文大学（深圳））

AI总结现有无训练的GUI定位方法通常依赖多次推理过程来识别目标元素，但每个前向传播过程独立解析指令和视觉布局，缺乏视觉token之间的渐进交互。本文研究了视觉语言模型（VLMs）在GUI定位过程中的内部机制，发现其遵循两阶段范式：预填充阶段确定候选UI元素，解码阶段进一步细化坐标。基于此，作者提出了一种无训练方法Re-Prefill，在预填充阶段引入注意力引导的二次处理，通过提取与查询位置高度相关的视觉token作为初步假设，从而提升定位精度。实验表明，该方法在多个基准测试中均取得显著提升。

2605.12545 2026-05-14 cs.CV cs.AI 版本更新

CROP: Expert-Aligned Image Cropping via Compositional Reasoning and Optimizing Preference

Zhitong Dong, Chao Li, Jie Yu, Hao Chen

发表机构 * Southeast University（东南大学）； Key Laboratory of New Generation Artificial Intelligence Technology（新一代人工智能技术重点实验室）； Alibaba Group（阿里巴巴集团）

AI总结该研究提出了一种名为CROP的新方法，旨在通过组合推理和优化偏好来实现与专家审美一致的图像裁剪。不同于以往依赖显著性预测或检索增强的方法，CROP将美学裁剪重新定义为多模态推理任务，引导视觉语言模型像专业摄影师一样进行分析、提案和决策。该方法通过分解复杂的审美问题，并结合专家偏好对齐模块，有效提升了裁剪结果与人类专家判断的一致性，实验表明其在多个数据集上均表现出优越性能。

2605.12528 2026-05-14 cs.CV cs.AI cs.AR 版本更新

MorphOPC: Advancing Mask Optimization with Multi-scale Hierarchical Morphological Learning

Yuting Hu, Lei Zhuang, Chen Wang, Ruiyang Qin, Hua Xiang, Gi-joon Nam, Jinjun Xiong

发表机构 * University at Buffalo（布法罗大学）； IBM T. J. Watson Research Center（IBM 沃森研究中心）； Villanova University（维拉诺瓦大学）

AI总结随着特征尺寸缩小至纳米级，从光刻掩模向硅晶圆准确转移电路图案变得愈发困难。为提高图案保真度和制造可行性，本文提出MorphOPC，一种基于多尺度分层形态学学习的掩模优化模型，通过局部布局特征的形态学操作序列生成掩模，有效提升了生成质量。实验表明，MorphOPC在多个基准测试中优于现有方法，实现了更高的印刷保真度和更低的制造成本，展示了其在可扩展掩模优化中的巨大潜力。

2605.12517 2026-05-14 cs.CL cs.AI cs.CV 版本更新

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Mingyeong Kim, Jungwon Choi, Chaeyun Jang, Juho Lee

发表机构 * Graduate School of AI, KAIST（人工智能研究生院，韩国科学技术院）

AI总结该研究探讨了视觉语言模型在仅输入文本时出现的性能下降和校准偏差问题，发现即使文本保留了关键信息，模型的置信度也会变得不可靠。为此，作者提出了一种轻量的交叉注意力模块——潜在想象模块（LIM），通过从文本生成潜在嵌入并输入到冻结的模型主干中，从而在无需生成图像的情况下提升模型的准确性和校准效果。实验表明，LIM在多种文本-only任务和缺失图像场景中均表现出显著的性能提升。

Comments 9 pages, 16 figures. Accepted at the ICLR 2026 Workshop on Principled Design for Trustworthy AI: Interpretability, Robustness, and Safety across Modalities

2605.12514 2026-05-14 cs.SI cs.CV cs.CY cs.DL stat.AP 版本更新

Structural Diversity Drives Disruptive Scientific Innovation

Yichun Peng, Saike He, Peijie Zhang, Kang Zhao, Yi Yang, Ning Zhang, Qingpeng Zhang, Daniel Dajun Zeng, Hao Peng

发表机构 * State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China（多模态人工智能系统国家重点实验室，自动化研究所，中国科学院，北京100190，中国）； University of Chinese Academy of Sciences, Beijing 101408, China（中国科学院大学，北京101408，中国）； Department of Business Analytics, Tippie College of Business, The University of Iowa, Iowa City, IA 52242, United States of America（美国爱荷华大学蒂普皮商学院商业分析系，爱荷华市，IA 52242，美国）； The University of Hong Kong, Institute of Data Science & Department of Pharmacology and Pharmacy（香港大学，数据科学研究所及药理学与药学系）

AI总结科学创新越来越依赖于合作，但能促进突破性想法的组织结构仍不明确。本文提出“结构多样性”（Structural Diversity，SD）这一新指标，用于衡量团队在其先前合作网络中连接多个不同知识社区的程度，并证明其是预测颠覆性创新的强大而稳健的指标，优于传统指标如团队新颖性和边密度。研究还发现，结构多样性能够与团队规模产生正向交互作用，缓解“规模诅咒”问题，并通过跨学科整合机制提升创新效能，为科学合作的组织设计提供了新的理论框架和实践指导。

2605.12506 2026-05-14 cs.CV cs.AI cs.HC cs.RO eess.IV 版本更新

Scale-Gest: Scalable Model-Space Synthesis and Runtime Selection for On-Device Gesture Detection

Abdul Basit, Saim Rehman, Muhammad Shafique

发表机构 * New York University (NYU) Abu Dhabi（纽约大学（NYU）阿布扎赫德）

AI总结在移动设备上实现满足实时性、能耗和内存约束的基于机器学习的手势检测具有挑战性，尤其在电池电量不一的情况下。本文提出了一种名为 Scale-Gest 的新型运行时自适应手势检测框架，通过扩展检测器空间为一系列紧凑的 tiny-YOLO 架构，并引入基于设备校准的 ACE（准确率-复杂度-能耗）配置，实现了在不同约束下的最优模型选择。实验表明，该方法在保持高检测性能的同时，显著降低了能耗和延迟，适用于车载等实际应用场景。

Comments 7 pages, 11 figures, Accepted to DAC 2026