arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10772 2026-05-12 cs.CV cs.AI eess.IV

Towards a Large Language-Vision Question Answering Model for MSTAR Automatic Target Recognition

David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

AI总结本文研究了将大语言-视觉模型（LLVM）应用于合成孔径雷达（SAR）图像的目标识别任务，特别是在军事车辆自动目标识别（ATR）中的应用。通过构建基于MSTAR公开数据集的训练与评估基准，并引入描述性文本和问答对，作者探索了LLVM在遥感图像描述和视觉问答（VQA）中的性能。实验表明，使用参数高效的微调方法，模型在识别细粒度目标特征方面达到了98%的准确率，为机器辅助的军事和情报遥感目标识别提供了新的技术路径。

Comments Accepted to SPIE Defense + Commercial Sensing, Automatic Target Recognition XXXV

详情

DOI: 10.1117/12.3053859
Journal ref: Proc. SPIE 13463, Automatic Target Recognition XXXV, 134630D (29 May 2025);

英文摘要

Large language-vision models (LLVM), such as OpenAI's ChatGPT and GPT-4, have gained prominence as powerful tools for analyzing text and imagery. The merging of these data domains represents a significant paradigm shift with far-reaching implications for automatic target recognition (ATR). Recent transformer-based LLVM research has shown substantial improvements for geospatial perception tasks. Our study examines the application of LLVM to remote sensing image captioning and visual question-answering (VQA), with a specific focus on synthetic aperture radar (SAR) imagery. We examine newly published LLVM methods, including CLIP and LLaVA neural network transformer architectures. We have developed a work-in-progress SAR training and evaluation benchmark derived from the MSTAR Public Dataset. This has been extended to include descriptive text captions and question-answer pairs for VQA tasks. This challenge dataset is designed to push the boundaries of an LLVM in identifying nuanced ATR details in SAR imagery. Utilizing parameter-efficient fine-tuning, we train an LLVM method to identify fine-grained target qualities at 98% accuracy. We detail our data setup and experiments, addressing potential pitfalls that could lead to misleading conclusions. Accurately identifying and differentiating military vehicle types in SAR data poses a critical challenge, especially under complex environmental conditions. Mastering this target recognition skill may require a human analyst months of training and years of practice. This research represents a unique effort to apply LLVM to SAR applications, advancing machine-assisted remote sensing ATR for military and intelligence contexts.

URL PDF HTML ☆

赞 0 踩 0

2605.10770 2026-05-12 cs.LG

DynaMiCS: Fine-tuning LLMs with Performance Constraints using Dynamic Mixtures

Eleonora Gualdoni, Sonia Laguna, Louis Bethune, Joao Monteiro, Pierre Ablin, Marco Cuturi

AI总结本文提出了一种名为DynaMiCS的动态混合优化方法，用于在微调大语言模型时同时提升目标领域的性能并保持约束领域的性能。该方法通过在每次更新时进行短期的领域特定训练，估计各领域间的交叉影响，并据此动态计算混合权重，从而在优化目标领域表现的同时确保约束领域的损失不超过参考阈值。实验表明，DynaMiCS在多种多领域微调场景中相比固定混合方法取得了更优的性能提升和更高的约束满足度，且计算成本更低，无需参考模型或手动调参。

2605.10769 2026-05-12 cs.CV cs.AI

MPerS: Dynamic MLLM MixExperts Perception-Guided Remote Sensing Scene Segmentation

Ziyi Wang, Xianping Ma, Ziyao Wang, Hongyang Zhang, Man On Pun

AI总结本文提出了一种名为MPerS的动态多模态大语言模型混合专家感知引导的遥感场景分割方法，旨在提升遥感图像语义分割的效果。该方法通过设计多种提示词引导大语言模型生成高质量的遥感场景描述，并结合DINOv3提取土地覆盖的密集视觉特征，利用动态混合专家模块自适应融合最有效的文本语义信息，最终实现更精确的遥感场景分割。实验表明，该方法在三个公开的遥感语义分割数据集上取得了优越的性能。

Comments Accepted to CVPR 2026 Findings. 11 pages, 6 figures

2605.10765 2026-05-12 cs.CV cs.AI cs.LG

Dynamic Cross-Modal Prompt Generation for Multimodal Continual Instruction Tuning

Tao Hu, Da-Wei Zhou

AI总结多模态大语言模型（MLLMs）通过指令微调取得了优异性能，但在实际应用中往往需要在连续任务中逐步扩展能力，同时避免灾难性遗忘。现有方法主要依赖模块组合范式，但难以应对同一任务内图像场景、问题意图和推理需求的差异。为此，本文提出DRAPE，一种动态跨模态提示生成框架，通过从文本指令中生成提示查询并结合视觉特征进行交叉注意力，为每个查询-图像对生成个性化的软提示，从而实现更细粒度的实例级适应。实验表明，DRAPE在多模态持续指令微调基准上取得了最先进的性能。

2605.10763 2026-05-12 cs.AI cs.CR

MATRA: Modeling the Attack Surface of Agentic AI Systems -- OpenClaw Case Study

Tim Van hamme, Thomas Vissers, Javier Carnerero-Cano, Mario Fritz, Emil C. Lupu, Lieven Desmet, Dinil Mon Divakaran

AI总结随着大型语言模型越来越多地作为具备工具、数据库和外部服务访问能力的自主代理系统部署，实践中缺乏系统方法来评估已知威胁类别在具体部署中的具体风险。本文提出MATRA，一个面向自主AI系统的实用威胁建模框架，通过资产影响评估和攻击树分析，系统地将已知的LLM威胁转化为特定部署的风险。研究以OpenClaw个人AI代理系统为例，展示了MATRA如何量化网络沙箱和最小权限访问等架构控制措施在降低风险中的作用。

Comments Accepted for presentation at the 5th International Workshop on Designing and Measuring Security in Systems with AI (DeMeSSAI 2026), co-located with the 11th IEEE European Symposium on Security and Privacy (EuroS&P 2026), Lisbon, Portugal, July 10, 2026

2605.10762 2026-05-12 cs.CV cs.AI

GridProbe: Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs

Mohamed Eltahir, Lama Ayash, Ali Habibullah, Tanveer Hussain, Naeemullah Khan

AI总结在长视频理解任务中，视觉-语言模型（VLM）因需处理数千帧视频而面临二次注意力计算成本的瓶颈。为解决这一问题，本文提出GridProbe，一种高效的训练-free 后验探测推理框架，通过冻结VLM自身的推理能力，在答案空间中对证据进行评分，并自适应选择与问题相关的帧，从而显著降低计算成本而几乎不损失精度。GridProbe通过在K×K网格上布置帧，并运行轻量级的行和列探测器，生成可解释的重要性图，进而实现形状自适应的帧选择，有效提升了长视频理解的效率与性能。

详情

英文摘要

Long-video understanding in VLMs is bottlenecked by a single monolithic forward pass over thousands of frames at quadratic attention cost. A common mitigation is to first select a small subset of informative frames before the forward pass; common for training-free selectors via auxiliary encoder-space similarities. Such signals are capped by contrastive pretraining, which usually fails on reasoning-heavy queries (negation, cross-frame counting, holistic summarization). We propose GridProbe, an efficient training-free posterior-probing inference paradigm that scores evidence in answer space using a frozen VLM's own reasoning and then selects question-relevant frames adaptively, resulting in sub-quadratic attention cost with little to no accuracy loss. We arrange frames on a $K{\times}K$ grid and run lightweight row R and column C probes, where each probe reads its peak posterior as a query-conditioned confidence. The outer product of R and C yields an interpretable importance map whose skewness and kurtosis drive Shape-Adaptive Selection, a closed-form rule that reliably replaces the fixed frame budget $M$ with a per-question $M_{\mathrm{eff}}$. We show empirically that $M_{\mathrm{eff}}$ tracks intrinsic question difficulty without ever seeing the answer, a sign of test-time adaptive compute. On Video-MME-v2, GridProbe matches the monolithic baseline within $1.6$ pp Avg Acc at $3.36\times$ TFLOPs reduction, while on LongVideoBench it Pareto-dominates the baseline ($+0.9$ pp at $0.35\times$ compute). Because the selector and QA models can be decoupled, pairing a small 2B selector with a stronger 4B or 8B QA is strictly Pareto-dominant over the 2B monolithic baseline (up to $+4.0$ pp at $0.52\times$ compute, on average), with no retraining. Finally, the interpretability of the importance maps opens future avenues for behavioral diagnostics, grounding, and frame-selection distillation.

URL PDF HTML ☆

赞 0 踩 0

2605.10761 2026-05-12 cs.CV

RadThinking: A Dataset for Longitudinal Clinical Reasoning in Radiology

Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

AI总结 RadThinking 是一个用于放射学纵向临床推理的视觉问答（VQA）数据集，旨在使癌症筛查中的诊断推理过程显式化并可训练。该数据集包含不同难度级别的问答对，从基础感知问题到需要多步骤推理的复合型问题，并提供了每道复合问题对应的推理链条，符合临床报告标准。RadThinking 覆盖了大量患者的CT扫描数据，为AI系统进行系统性的推理训练与评估提供了重要资源。

2605.10760 2026-05-12 cs.RO

MAGS-SLAM: Monocular Multi-Agent Gaussian Splatting SLAM for Geometrically and Photometrically Consistent Reconstruction

Zhihao Cao, Qi Shao, Shuhao Zhai, Jing Zhang, Anh Nguyen, Baoru Huang

AI总结 MAGS-SLAM 是一种基于单目视觉的多智能体高斯泼溅（3DGS）SLAM 框架，旨在实现几何与光度一致的协同场景重建。该方法通过各智能体独立构建局部单目高斯子地图，并传输紧凑的子地图摘要，避免了对深度传感器的依赖，从而适用于轻量、低成本或功耗受限的平台。研究引入了紧凑子地图通信、几何与外观感知的回环验证以及占用感知的高斯融合机制，实现了无需主动深度传感器的全局一致重建，并在合成与真实数据集上验证了其优越的跟踪精度与渲染质量。

2605.10756 2026-05-12 cs.CV

TINS: Test-time ID-prototype-separated Negative Semantics Learning for OOD Detection

Yifeng Yang, Jubo Feng, Jing Xu, Xinbing Wang, Qinying Gu, Nanyang Ye

AI总结该研究提出了一种名为TINS的测试时ID-原型分离负语义学习方法，用于提升视觉-语言模型在开放域检测（OOD Detection）中的性能。为了解决现有方法依赖静态负标签、难以适应多样化和动态变化的OOD概念的问题，TINS通过图像到文本的模态反转学习样本特定的负语义嵌入，并引入ID-原型分离正则化以避免与ID语义混淆。实验表明，TINS在多个基准数据集上均优于现有方法，尤其在Four-OOD基准中将平均FPR95从14.04%降低至6.72%。

2605.10754 2026-05-12 cs.AI

The Agent Use of Agent Beings: Agent Cybernetics Is the Missing Science of Foundation Agents

Xinrun Wang, Chang Yang, He Zhao, Zhuoyi Lin, Shuyue Hu

AI总结本文探讨了基于大语言模型的智能体（foundation agents）在复杂任务中长期运行所面临的核心科学问题，指出当前研究主要依赖经验试错，缺乏理论指导。作者提出“智能体控制论”（Agent Cybernetics），将经典控制论的六条定律映射为智能体设计的六项原则，并提炼出可靠性、长期运行和自我改进三个工程目标，为智能体的构建提供了理论框架。通过代码生成、计算机使用和自动化研究三个应用领域的案例，验证了该框架的有效性，为智能体的科学化发展奠定了基础。

Comments Preliminary Work

2605.10748 2026-05-12 cs.LG cs.AI

Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs

Li Shen, Xiaolei Hao, Qinglun Li, Xiaochun Cao, Zhifeng Hao, Xun Yang

AI总结本文研究了在极端非独立同分布（non-IID）环境下，如何提升单轮联邦学习中全局模型的性能。提出了一种名为FedMITR的框架，通过稀疏模型逆向和令牌重标签方法，有效生成高质量的合成数据并优化视觉Transformer（ViT）的预测能力。该方法在生成数据时仅逆向语义前景，忽略无信息背景，并结合伪标签与集成模型对不同信息密度的图像块进行差异化重标签，从而在理论上保证了模型稳定性与泛化能力，实验表明其在多种设置下均优于现有方法。

Comments 18 Pages

2605.10744 2026-05-12 cs.CV cs.RO

C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving

Kefei Tian, Yuansheng Lian, Kai Yang, Xiangdong Chen, Shen Li

AI总结本文提出了一种基于视觉语言模型的反事实推理框架C-CoT，用于提升自动驾驶在复杂城市交叉路口等安全关键场景中的决策能力。该方法将驾驶决策分解为五个阶段，通过引入结构化的元动作评估树，在反事实推理阶段显式评估不同行动组合的潜在后果，从而建立行动与安全结果之间的因果联系，增强模型在罕见和分布外场景中的鲁棒性。实验表明，该方法在风险预测和碰撞率等指标上均优于现有方法，显著提升了自动驾驶系统的安全性和可解释性。

2605.10741 2026-05-12 cs.LG

AdaPaD: Adaptive Parallel Deflation for PEFT with Self-Correcting Rank Discovery

Barbara Su, Fangshuo Liao, Anastasios Kyrillidis

AI总结本文提出了一种名为AdaPaD的自适应并行消去方法，用于参数高效微调（PEFT），能够在训练过程中自动发现适配器的秩分布。该方法通过同时训练所有秩-1组件，并利用前序估计的改进不断优化消去目标，实现了误差的自纠正特性。此外，AdaPaD还引入了预训练学习和模块动态秩发现机制，使秩分配成为模型输出而非输入。实验表明，AdaPaD在多个基准任务上表现优异，且在参数预算相同的情况下，其适配器规模平均减少了30.7%。

2605.10734 2026-05-12 cs.LG

XQCfD: Accelerating Fast Actor-Critic Algorithms with Prior Data and Prior Policies

Daniel Palenicek, Florian Vogt, Joe Watson, Ingmar Posner, Danica Kragic, Jan Peters

AI总结本文提出了一种名为XQCfD的强化学习算法，旨在通过利用先验数据和先验策略提升快速策略梯度算法的样本效率。该方法通过增强的经验回放缓冲、预训练策略以及设计用于保持初始策略稳定性的静态策略架构，有效避免了传统算法在学习过程中对初始策略的快速遗忘问题。实验表明，XQCfD在多个具有稀疏奖励的复杂操作任务中表现出色，且在数据使用效率方面优于现有方法。

Comments 22 pages, 10 figures, 2 tables

2605.10732 2026-05-12 cs.CV cs.AI

iPay: Integrated Payment Action Recognition via Multimodal Networks and Adaptive Spatial Prior Learning

Kaicong Huang, Weiheng Oh, Thomas Guggisberg, Ruimin Ke

AI总结本文提出了一种名为iPay的集成支付动作识别框架，用于车载公共交通监控系统。该方法结合RGB图像和骨架数据，通过多模态混合专家架构，分别捕捉局部细节和整体运动特征，并引入双注意力融合机制和空间差异判别器，以提升模型对支付动作的识别能力。实验表明，iPay在真实监控数据上取得了83.45%的识别准确率，具有较高的计算效率，适用于边缘部署。

2605.10730 2026-05-12 cs.CV

Qwen-Image-2.0 Technical Report

Bing Zhao, Chenfei Wu, Deqing Li, Hao Meng, Jiahao Li, Jie Zhang, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kuan Cao, Kun Yan, Liang Peng, Lihan Jiang, Niantong Li, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Xihua Wang, Yan Shu, Yanran Zhang, Yi Wang, Yilei Chen, Ying Ba, Yixian Xu, Yujia Wu, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhendong Wang, Zihao Liu, Zikai Zhou, An Yang, Chen Cheng, Chenxu Lv, Dayiheng Liu, Fan Zhou, Hantian Xiong, Hongzhu Shi, Hu Wei, Huihong Zhao, Ivy Liu, Jianwei Zhang, Jiawei Zhang, Kai Chen, Kang He, Levon Xue, Lin Qu, Linhan Tang, Luwen Feng, Minggang Wu, Minmin Sun, Na Ni, Rui Men, Shuai Bai, Sishou Zheng, Tao Lan, Tianqi Zhang, Tingkun Wen, Wei Wang, Weixu Qiao, Weiyi Lu, Wenmeng Zhou, Xiaodong Deng, Xiaoxiao Xu, Xinlei Fang, Xionghui Chen, Yanan Wang, Yang Fan, Yichang Zhang, Yixuan Xu, Yu Wu, Zhiyuan Ma, Zhizhi Cai

AI总结本文介绍了Qwen-Image-2.0，一种能够统一高保真图像生成与精确图像编辑的全能型图像生成基础模型。该模型通过结合Qwen3-VL作为条件编码器与多模态扩散变换器，解决了超长文本渲染、多语言排版、高分辨率写实生成等挑战，并在大规模数据训练和定制化多阶段训练流程的支持下，实现了强大的多模态理解能力与灵活的生成与编辑功能。实验表明，Qwen-Image-2.0在生成与编辑任务上显著优于之前的版本，向着更通用、可靠和实用的图像生成模型迈出了重要一步。

2605.10727 2026-05-12 cs.LG math.DG

Kernel-Gradient Drifting Models

Maria Esteban-Casadevall, Jorge Carrasco-Pollo, Max Welling, Jan-Willem van de Meent, Erik J. Bekkers, Floor Eijkelboom

AI总结本文提出了一种名为“核梯度漂移”的生成模型框架，通过将传统漂移模型中固定的欧几里得方向替换为由核函数诱导的方向，实现了更灵活的生成机制。该方法揭示了通用核函数下的梯度漂移与核平滑分布之间分数差异的关系，为特征核提供了可识别性，并在黎曼流形和离散数据上具有自然扩展性。实验表明，该方法在球面地理数据、DNA序列和分子生成等任务中实现了无需预训练模型的高质量一步生成。

2605.10723 2026-05-12 cs.CV cs.AI cs.LG cs.MA

AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang

AI总结 AllocMV 是一种用于音乐视频生成的分层框架，旨在解决长时域视频生成中计算成本高和跨镜头一致性难以保持的问题。该方法将视频合成建模为多重选择背包问题，通过结构化持久状态对象进行资源优化分配，并引入基于动态规划的求解器实现高效资源调度。实验表明，AllocMV 在严格预算和节奏约束下，实现了生成质量与资源消耗之间的最优平衡。

2605.10722 2026-05-12 cs.LG

On Improving Graph Neural Networks for QSAR by Pre-training on Extended-Connectivity Fingerprints

Sam Money-Kyrle, Markus Dablander, Thierry Hanser, Stephane Werner, Charlotte M. Deane, Garrett M. Morris

AI总结本文研究如何通过预训练改进图神经网络（GNN）在定量构效关系（QSAR）研究中的性能，提出了一种基于扩展连接指纹（ECFP）的预训练策略。实验表明，该方法在多个基准数据集上显著提升了GNN的预测性能，但在某些异质性更强或任务更复杂的场景下表现有所下降。研究还分析了预训练过程中子结构级数据泄露对下游任务的影响，验证了ECFP预训练在实际QSAR任务中具有增强模型泛化能力的潜力。

2605.10717 2026-05-12 cs.LG cs.CV

Heteroscedastic Diffusion for Multi-Agent Trajectory Modeling

Guillem Capellera, Antonio Rubio, Luis Ferraz, Antonio Agudo

AI总结本文提出了一种异方差扩散模型U2Diffine，用于多智能体轨迹建模，同时提供每个状态的不确定性估计，以解决传统方法在轨迹补全和不确定性量化方面的不足。通过在去噪损失中引入预测噪声的负对数似然，并利用一阶泰勒展开将潜在空间的不确定性传播到真实状态空间，实现了轨迹补全与不确定性估计的统一。此外，还提出了一种更高效的基线模型U2Diff，并结合排序神经网络进行后处理，显著提升了推理速度和预测可靠性，在多个体育数据集上取得了优于现有方法的性能。

Comments Accepted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Extended version of arXiv:2503.18589 (CVPR 2025)

2605.10716 2026-05-12 cs.LG stat.ML

What should post-training optimize? A test-time scaling law perspective

Muheng Li, Jian Qian, Wenlong Mou

AI总结该论文研究了大语言模型在部署时常用的“最佳中选N”策略与后训练目标之间的不匹配问题。作者提出，在训练资源有限的情况下，可以通过对奖励分布的上尾统计量进行外推，近似最佳中选N的目标梯度，从而设计出高效的后训练优化方法。文中提出的Tail-Extrapolated Advantage（TEA）及其改进版本Prefix-TEA，在多种语言模型和数据集上均能有效提升最佳中选N的性能。

2605.10715 2026-05-12 cs.CV

UAV-Assisted Scan-to-Simulation for Landslides Using Physics-Informed Gaussian Splatting

Zhenyu Liang, Jack C. P. Cheng

AI总结本文提出了一种基于无人机的扫描到模拟框架，用于提升滑坡监测与仿真的真实感与准确性。该方法结合物理感知的高斯点喷射技术（3DGS）与材料点法（MPM），实现了从无人机采集的实景图像到具备物理特性的滑坡模拟的全过程。研究通过在香港真实滑坡现场的验证，展示了该方法在视觉重建与物理模拟方面的双重优势，为灾害预防和公众教育提供了更有效的工具。

2605.10714 2026-05-12 cs.CL cs.AI

Why Low-Resource NLP Needs More Than Cross-Lingual Transfer: Lessons Learned from Luxembourgish

Fred Philippy, Siwen Guo, Jacques Klein, Tegawendé F. Bissyandé

AI总结本文通过研究卢森堡语在自然语言处理中的应用，探讨了低资源语言处理中跨语言迁移的局限性与语言特定努力的必要性。研究发现，尽管跨语言迁移能有效提升低资源语言的性能，但其效果高度依赖于高质量、任务对齐的目标语言数据，而这类数据在低资源场景下通常不足。因此，跨语言迁移与语言特定努力应被视为互补而非对立的组成部分，文章据此提出了构建可持续低资源NLP系统的方法建议。

Comments Accepted at BigPicture Workshop 2026 (co-located with ACL 2026)

2605.10707 2026-05-12 cs.RO

ObjView-Bench: Rethinking Difficulty and Deployment for Object-Centric View Planning

Sicong Pan, Hao Hu, Xuying Huang, Benno Wingender, Maren Bennewitz

AI总结本文提出 ObjView-Bench，旨在重新思考以物体为中心的视角规划中的难度评估与部署问题。该框架通过分离物体自遮挡、观测饱和度和规划难度三个关键因素，为视角规划的评估提供了更精细的分析方法，并展示了考虑规划难度的采样策略可以提升学习型视角规划器的性能。此外，ObjView-Bench 还设计了面向实际部署的评估协议，揭示了预算限制和可达视角约束对不同规划方法性能和失败模式的影响，为机器人三维重建中的视角规划研究提供了更可靠的评估基准。

2605.10706 2026-05-12 cs.LG

RelFlexformer: Efficient Attention 3D-Transformers for Integrable Relative Positional Encodings

Byeongchan Kim, Arijit Sehanobish, Avinava Dubey, Min-hwan Oh, Krzysztof Choromanski

AI总结本文提出了一种新的高效注意力机制——RelFlexformer，适用于任意可积调制函数定义的3D相对位置编码（RPE），实现了对3D输入序列的高效处理，其注意力计算时间复杂度为$O(L \log L)$。该方法基于非均匀傅里叶变换（NU-FFT）理论，能够自然地将已有高效RPE注意力方法从结构化网格扩展到任意分布的非结构化3D空间，特别适用于点云建模。实验表明，RelFlexformer在多个3D数据集上表现出优越的性能。

2605.10705 2026-05-12 cs.CV

TransmissiveGS: Residual-Guided Disentangled Gaussian Splatting for Transmissive Scene Reconstruction and Rendering

Zhenyu Liang, Xiao Zhang, Tianchao Li, Jack C. P. Cheng, Chi-Keung Tang

AI总结该论文提出了一种名为TransmissiveGS的新框架，用于解决透射场景重建与渲染中的挑战性问题。该方法通过引入双高斯表示和延迟着色函数，实现了反射与透射成分的解耦重建，并利用多视角不一致性及残差信息分离表面几何与光照属性，同时提出反射光场以提升近场反射估计精度。实验表明，该方法在合成与真实场景中均优于现有高斯点绘技术，显著提升了透射场景的重建与渲染质量。

2605.10688 2026-05-12 cs.LG eess.SP

DANCE: Detect and Classify Events in EEG

Jarod Lévy, Hubert Banville, Jérémy Rapin, Jean-Remi King, Thomas Moreau, Stéphane d'Ascoli

AI总结本文提出了一种名为DANCE的深度学习方法，用于直接从原始未对齐的脑电（EEG）信号中检测和分类事件，解决了传统方法依赖已知事件起始点的局限性。该方法将神经解码任务建模为集合预测问题，实现了端到端的异步解码。实验表明，DANCE在多种认知、临床和脑机接口任务中均优于现有方法，并在癫痫监测任务中达到了新的性能水平。

Comments 29 pages

2605.10687 2026-05-12 cs.LG

The finite expression method for turbulent dynamics with high-order moment recovery

Xingjian Xu, Di Qi, Chunmei Wang

AI总结该研究针对湍流动力系统中高阶统计矩难以准确捕捉的问题，提出了一种两阶段的数据驱动建模框架，结合符号回归与生成模型，联合识别系统动力学并预测其关键统计特性。第一阶段采用有限表达式方法（FEX）发现确定性动力学的闭式表达，无需预设函数库即可恢复非线性相互作用项和外力项；第二阶段引入生成模型学习残余随机成分，修正第一阶段的模型误差，从而准确刻画高阶统计量。实验表明，该方法在多个场景下有效恢复了相互作用项和外力表达，并准确预测了五阶以内的统计矩，展示了符号发现与数据驱动随机建模结合在复杂湍流系统中的潜力。

Comments 20 pages, 8 figures, 1 table

2605.10680 2026-05-12 cs.LG

Exact Unlearning from Proxies Induces Closeness Guarantees on Approximate Unlearning

Virgile Dine, Teddy Furon

AI总结本文提出了一种将机器遗忘直接与数据分布结构关联的新范式，而非仅仅依赖神经网络参数的更新。通过精确推断数据分布，该方法能够提取出模型所产生的精确遗忘信号，并在可验证的可接受性准则下，给出了理想重训练模型与遗忘模型之间KL散度的理论界，证明了方法的有效性。实验结果表明，该方法在三种遗忘场景中相比现有方法，能够达到最接近理想重训练模型的分类效果。

2605.10676 2026-05-12 cs.CV cs.LG

Not Blind but Silenced: Rebalancing Vision and Language via Adversarial Counter-Commonsense Equilibrium

Qingxin Xiao, Peilin Zhao, Yangyang Zhao, Lingwei Dang, Qingyao Wu

AI总结在多模态语言模型解码过程中，注意力往往异常聚焦于与任务无关的图像区域，现有方法通常将这些区域视为噪声并强制调整注意力，但本文认为这些区域实际上承载了重要的视觉与叙事逻辑，强制调整反而加剧了视觉与语言之间的不平衡。为此，研究提出了一种名为Adversarial Counter-Commonsense Equilibrium（ACE）的训练无关框架，通过引入反常识的图像干扰块，动态调整解码过程中的注意力分布，从而在不引入额外训练的前提下，有效抑制虚假信息，恢复视觉与语言的平衡，实验表明该方法能显著提升模型的可信度且几乎不增加推理开销。