arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10166 2026-05-12 cs.RO

Data-Asymmetric Latent Imagination and Reranking for 3D Robotic Imitation Learning

Lianghao Luo, Xizhou Bu, Ruyan Liu, Qingqiu Huang, Chufeng Tang, Xiaoshuai Hao, Hongbo Wang, Wei Li

AI总结本文研究了如何从质量参差不齐的轨迹中进行三维机器人模仿学习，提出了一种名为DALI-R的数据非对称潜在想象与重排序框架。该方法通过学习3D点云的潜在世界模型进行想象 rollout，并结合任务完成评分器对候选动作片段进行重排序，从而在无需额外高质量演示的情况下提升决策性能。实验表明，DALI-R在多个基准测试中有效提高了任务成功率，同时保持了较低的推理开销。

2605.10164 2026-05-12 cs.LG stat.ML

Hyperparameter Transfer for Dense Associative Memories

Roi Holtzman, Dmitry Krotov, Boris Hanin

AI总结该论文研究了如何将超参数迁移方法应用于密集联想记忆（DenseAM）模型，这类模型通过神经网络在能量景观上进行时间动态操作，具有层内和层间权重共享的结构特点。由于DenseAM使用了在传统前馈网络中较少见的快速峰值激活函数，使得现有超参数迁移方法难以直接应用。本文提出了针对DenseAM的超参数迁移方法，推导了从小规模模型迁移至大规模模型的明确超参数设置规则，并通过实验验证了理论分析与实际结果的一致性。

2605.10162 2026-05-12 cs.CV

Active-SAOOD: Active Sparsely Annotated Oriented Object Detection in Remote Sensing Images

Yu Lin, Jianghang Lin, Kai Ye, Shengchuan Zhang, Liujuan Cao

AI总结本文提出了一种基于主动学习的稀疏标注遥感图像定向目标检测方法Active-SAOOD，旨在降低遥感图像中定向目标检测的标注成本。该方法通过模型状态观测模块，在实例层面综合考虑方向、分类与定位的不确定性以及类间和类内多样性，主动选择对当前模型最有价值的稀疏样本，从而在完全随机初始化的稀疏标注下实现稳定检测。实验表明，Active-SAOOD在多种数据集上显著提升了现有稀疏标注方法的性能与稳定性，尤其在仅1%标注比例下性能提升达9%，进一步增强了其在遥感领域的实用价值。

2605.10161 2026-05-12 cs.LG

OUIDecay: Adaptive Layer-wise Weight Decay for CNNs Using Online Activation Patterns

Alberto Fernández-Hernández, Jose I. Mestre, Cristian Pérez-Corral, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí

AI总结本文提出了一种名为OUIDecay的自适应层间权重衰减方法，用于卷积神经网络的训练。该方法基于激活模式计算的过拟合-欠拟合指示器（OUI），动态调整各层的权重衰减系数，无需依赖验证数据，且计算轻量，适合在线使用。实验表明，OUIDecay在多个数据集和网络结构上优于固定衰减和基于梯度的自适应方法，有效提升了模型的泛化性能。

2605.10159 2026-05-12 cs.LG cs.NA math.NA physics.comp-ph

jNO: A JAX Library for Neural Operator and Foundation Model Training

Leon Armbruster, Rathan Ramesh, Georg Kruse, Christopher Straub

AI总结 jNO 是一个基于 JAX 的库，旨在支持神经算子和基础模型的训练，统一支持数据驱动和物理感知两种训练方式。其核心设计采用了一种追踪系统，允许用户用统一的符号语言编写领域、模型调用、残差、监督损失和诊断信息，并将其编译为一个优化流程，从而在不同任务间灵活切换而无需重构代码。jNO 还支持多模型组合、参数级别的精细控制、超参数调优以及适用于偏微分方程基础模型家族的原生 JAX 工作流。

2605.10158 2026-05-12 cs.LG

Unsupervised Process Reward Models

Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic

AI总结本文提出了一种无需人工监督的无监督过程奖励模型（uPRM），用于指导大语言模型的推理过程。该方法通过利用大语言模型的下一个词概率定义评分函数，联合评估多个推理轨迹中首个错误步骤的位置，从而实现对推理过程的评估与引导。实验表明，uPRM在错误步骤识别、测试时扩展验证以及强化学习奖励信号应用中均表现出色，为复杂推理任务的可扩展奖励建模提供了新途径。

Comments preprint

2605.10155 2026-05-12 cs.CL

NyayaAI: An AI-Powered Legal Assistant Using Multi-Agent Architecture and Retrieval-Augmented Generation

Deepanshu, Divi Saxena, Deepali Rana, Ayesha Varshney, Sahinur Rahman Laskar

AI总结本文介绍了NyayaAI，一个基于多智能体架构和检索增强生成技术的AI法律助手，旨在解决印度法律信息因语言复杂和文档量大而难以获取的问题。该系统结合大型语言模型与构建在印度法律知识库上的检索增强生成流程，通过多智能体协调处理法律研究、文档摘要、案例检索和文书起草等任务，并设有合规模块确保输出准确性。实验表明，该系统在领域分类、检索和响应准确率方面均达到较高水平，展示了结构化多智能体LLM系统在提升法律可及性和工作效率方面的潜力。

Comments 3 pages, 1 figure

2605.10154 2026-05-12 cs.LG

Stable Long-Horizon PDE Forecasting via Latent Structured Spectral Propagators

Xiaoxiao Lu, Ye Yuan, Jiahao Shi

AI总结本文研究了长时间尺度偏微分方程（PDE）的稳定预测问题，提出了一种基于隐结构谱传播器（SSP）的神经预测框架。该方法通过将PDE演化重构为传播导向的潜在空间中的结构化谱传播过程，有效分离了动态演化与空间细节，提升了预测的稳定性与准确性。实验表明，SSP在长期预测任务中显著优于现有方法，大幅降低了预测误差并增强了时间外推的稳定性。

2605.10153 2026-05-12 cs.SD cs.LG

APEX: Audio Prototype EXplanations for Classification Tasks

Piotr Kawa, Kornel Howil, Piotr Borycki, Miłosz Adamczyk, Przemysław Spurek, Piotr Syga

AI总结本文提出了一种名为APEX的音频分类解释框架，旨在解决当前音频领域可解释AI方法不足的问题。该方法基于预训练音频分类器，无需微调即可生成与原模型输出一致的解释结果。APEX通过将解释分解为时域、频域及时频联合四个视角，提供了更符合音频特性的直观解释，提升了分类结果的语义可理解性。

2605.10151 2026-05-12 cs.LG cs.SY eess.SY math.OC

Learning to Sparsify Stochastic Linear Bandits

Zhengmiao Wang, Ming Chi, Zhi-Wei Liu, Lintao Ye, Carla Fabiana Chiasserini

AI总结本文研究了在高维空间中带有稀疏性约束的随机线性博弈问题，旨在在最小化累积遗憾的同时选择稀疏动作。作者提出了一种自适应分阶段的探索与利用算法框架，结合普通最小二乘法进行参数学习，并采用专门的子程序进行稀疏动作选择。对于欧几里得球形动作集，算法可高效计算最优稀疏动作并获得 $\tilde{\mathcal{O}}(d\sqrt{T})$ 的遗憾界；对于一般凸紧动作集，采用贪心子程序并分别给出了不同情况下的遗憾上界。实验验证了算法在推荐系统等实际场景中的有效性。

Comments Include all the omitted details and proofs from the conference paper accepted to IJCAI 2026

2605.10149 2026-05-12 cs.CV

Improving Temporal Action Segmentation via Constraint-Aware Decoding

Yeo Keat Ee, Debaditya Roy, Chen Li, Hao Zhang, Basura Fernando

AI总结本文研究如何通过引入结构先验约束来提升时序动作分割的性能。作者提出了一种轻量级的约束感知解码框架，通过整合动作转移置信度、动作边界集和类别持续时间等统计结构先验，在不增加模型复杂度的情况下实现推理阶段的预测优化。该方法有效提升了全监督和半监督动作分割模型的性能，尤其在标注数据有限或新领域场景中表现突出。

Comments accepted to ICPR 2026

2605.10148 2026-05-12 cs.CV

MicroViTv2: Beyond the FLOPS for Edge Energy-Friendly Vision Transformers

Novendra Setyawan, Chi-Chia Sun, Mao-Hsiu Hsu, Wen-Kai Kuo, Jun-Wei Hsieh

AI总结本文提出了一种轻量级的视觉Transformer模型MicroViTv2，旨在提升边缘设备上的能效表现。通过引入重参数化设计，包括重参数化块嵌入（RepEmbed）和重参数化深度可分离卷积混合器（RepDW），并结合单深度可分离转置注意力（SDTA）模块，模型在保持快速推理速度的同时，实现了更高的准确率。实验表明，MicroViTv2在Jetson AGX Orin等硬件平台上展现出优越的能效比，验证了超越FLOPs指标进行效率评估的重要性。

2605.10146 2026-05-12 cs.AI cs.CR

Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing

Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

AI总结本文研究了在恶意知识编辑背景下，知识密集型推理中的安全风险问题。为填补现有基准在安全评估方面的不足，作者提出了EditRisk-Bench，该基准通过集成多种恶意场景和复杂的推理任务，系统评估恶意知识对推理行为和可靠性的影响。实验表明，恶意知识编辑能够在不显著影响模型整体能力的前提下，诱导错误或危险的推理，揭示了知识编辑安全风险的隐蔽性和复杂性。

2605.10142 2026-05-12 cs.CV cs.AI

Scaling Vision Models Does Not Consistently Improve Localisation-Based Explanation Quality

Mateusz Cedro, Marcin Chlebus

AI总结本文研究了视觉模型的规模扩大是否能提升基于定位的解释质量。通过在多个图像数据集上评估不同深度和复杂度的ResNet、DenseNet和Vision Transformer模型，结合五种事后解释方法，发现模型规模的增加并未在大多数情况下提升解释质量，较小的模型往往表现相当甚至更优。研究还指出，预训练虽能提升预测性能，但对定位精度的提升并不一致，表明在模型选择中应明确评估解释性以确保安全应用。

Comments 28 pages, 8 figures, 8 tables

2605.10141 2026-05-12 cs.AI

FormalRewardBench: A Benchmark for Formal Theorem Proving Reward Models

Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin

AI总结该论文提出了一种名为 FormalRewardBench 的基准，用于评估形式化定理证明中奖励模型的表现。研究针对当前基于可验证奖励的神经定理证明器在稀疏奖励分配上的不足，引入了五种专家设计的错误注入策略，构建了包含250对证明对比的基准数据集。实验表明，前沿大语言模型在证明质量评估上表现最佳，而专门的定理证明模型表现较差，揭示了定理证明能力与证明评估能力之间的差异。

2605.10136 2026-05-12 cs.LG

Per-Loss Adapters for Gradient Conflict in Physics-Informed Neural Networks

Bum Jun Kim, Gnankan Landry Regis N'guessan

AI总结物理信息神经网络（PINNs）通过最小化多个物理和数据驱动的损失函数来训练单一神经网络近似模型，但这些损失的梯度常发生冲突，导致优化停滞。本文指出，这种梯度冲突并非单一失效模式，而是存在不同类型的冲突场景，需采用不同的干预策略。为此，作者提出了一种基于诊断的框架，通过低秩适配器为每个损失创建独立的参数子空间，从而在保持共享主干网络的前提下，为每个损失提供直接的梯度路径，实验表明该方法在多种偏微分方程问题中显著提升了性能。

Comments 49 pages, 10 figures

2605.10130 2026-05-12 cs.CV

Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection

Yasiru Ranasinghe, Elim Schenck, Florence Yellin, Shuowen Hu, Christopher Funk, Vishal M. Patel

AI总结现有开放词汇检测方法主要针对RGB图像，难以推广到热成像领域，因热图像纹理低、发射率变化大，给基于RGB的语义理解带来挑战。本文提出Thermal-Det，首个由大语言模型（LLM）监督的开放词汇热成像目标检测方法，通过构建包含百万级热成像对齐样本的合成数据集，并结合跨模态蒸馏与文本校准模块，实现了无需人工标注的热成像检测知识迁移。实验表明，该方法在公开数据集上相比现有开放词汇检测器平均精度提升2-4%，为语言驱动的热感知系统奠定了基础。

Comments Accepted at CVPR 26

2605.10129 2026-05-12 cs.CL

Synthetic Pre-Pre-Training Improves Language Model Robustness to Noisy Pre-Training Data

Xu Guo, Runyu Peng, Jian Tong, Yunhua Zhou, Haijun Lv, Zhihui Lu, Qipeng Guo

AI总结本文研究了如何通过引入一种轻量级的预预训练（PPT）阶段来提升大型语言模型在噪声预训练数据下的鲁棒性。作者提出使用具有可学习时间结构的合成数据进行PPT，从而在正式预训练阶段增强模型对噪声的抵抗能力。实验表明，这种方法在不同噪声水平下均能有效提升模型性能，并减少了对自然文本预训练数据的依赖。

2605.10123 2026-05-12 cs.LG

Complex-Valued Phase-Coherent Transformer

Leona Hioki

AI总结本文提出了一种名为Phase-Coherent Transformer（PCT）的复值变换器模型，旨在解决复值神经网络中相位信息保留的问题。与传统基于softmax注意力的复值变换器不同，PCT采用一种实值、元素无关且平滑的门控机制，对L2归一化的复值查询-键相似度进行处理，从而避免令牌竞争并保持跨层的相位一致性。实验表明，PCT在多个中等规模基准任务中表现出色，优于标准softmax变换器及其复值变体，并在一些传统上对复值网络具有挑战性的任务中仍保持竞争力。

Comments 26 pages, 17 tables (no figures). Companion Lean 4 formalization of Theorems 1 and 2 at https://github.com/leohio/phase-coherent-transformer-r-d

2605.10122 2026-05-12 cs.AI cs.LG

Rethinking Constraint Awareness for Efficient State Embedding of Neural Routing Solver

Canhong Yu, Changliang Zhou, Rongsheng Chen, Zhenkun Wang, Yu Zhou

AI总结本文针对神经路由求解器在处理具有复杂约束的车辆路径问题（VRP）时的不足，重新审视了状态嵌入的生成机制，指出当前方法在解码过程中限制了观察空间，成为性能瓶颈。为此，作者提出了一种名为CARM的约束感知残差调制模块，通过自适应地利用约束相关变量对上下文嵌入进行调制，有效增强了模型对约束的感知能力。实验表明，CARM模块在多个单任务和多任务路由求解器中均显著提升了性能，尤其在处理大规模实例和泛化到新VRP变体时表现突出。

2605.10121 2026-05-12 cs.LG cs.AI cs.HC

Explainability of Recurrent Neural Networks for Enhancing P300-based Brain-Computer Interfaces

Christian Oliva, Vinicio Changoluisa, Francisco B Rodríguez, Luis F Lago-Fernández

AI总结本文研究了如何提高基于P300事件相关电位的脑机接口中循环神经网络的可解释性。作者提出了一种称为后循环模块（PRM）的附加层，将其集成到RNN架构中，以提升模型性能和透明度。该方法通过全局和局部解释技术，实现了对时空信号的双重分析，能够识别分类过程中涉及的关键脑区和时间区间，并与已有的神经生理学描述保持一致。实验表明，该方法在性能上比现有方法提升了9%，并揭示了个体间和个体内部变异的重要性，为构建可解释的脑电模型提供了有效框架。

2605.10120 2026-05-12 cs.CV cs.AI

MicroWorld: Empowering Multimodal Large Language Models to Bridge the Microscopic Domain Gap with Multimodal Attribute Graph

Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan

AI总结本文提出了一种名为MicroWorld的框架，旨在解决多模态大语言模型在显微镜等专业微观领域表现不足的问题。该方法通过构建多模态属性图（MAPG）来增强模型的推理能力，无需特定领域的微调即可在推理阶段提升模型表现。实验表明，MicroWorld显著提升了Qwen3-VL-8B-Instruct在MicroVQA等基准上的性能，取得了当前最优结果，并展示了其在跨领域泛化能力上的优势。

Comments 29 pages, 14 figures

2605.10118 2026-05-12 cs.RO

Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation

Zhixuan Shen, Jiawei Du, Ziyu Guo, Han Luo, Lilan Peng, Joey Tianyi Zhou, Haonan Luo, Tianrui Li

AI总结该研究旨在解决具身导航中视觉语言模型因缺乏真实世界数据而表现受限的问题，提出了一种基于物理约束语义抽象的框架SAGE。通过构建语义环境、强化学习训练及抽象策略到现实控制的迁移，SAGE实现了在简化物理抽象中学习并规划，最终在A-EQA数据集上取得了显著提升的导航成功率，并展示了良好的现实机器人部署迁移能力。

Comments 28 pages, 15 figures, Extended Version of accepted ICML 2026 Paper

2605.10117 2026-05-12 cs.CV cs.AI

Think as Needed: Geometry-Driven Adaptive Perception for Autonomous Driving

Donghyun Kim, Jaehyoung Park

AI总结本文研究了自动驾驶场景中如何根据环境复杂度动态调整感知计算资源的问题。提出了一种名为Enhanced HOPE的自适应感知架构，通过无监督方法估计LiDAR帧的几何复杂度，并据此选择浅层或深层处理路径，从而在保证精度的同时提升计算效率。该方法还引入了线性时间的子空间注意力网络和持续的时序记忆模块，有效提升了对遮挡目标的跟踪能力，并在多个基准测试中表现出优越的性能。

2605.10115 2026-05-12 cs.LG cond-mat.mtrl-sci

Generating Symmetric Materials using Latent Flow Matching

Anmar Karmush, Cedric Mathieu Brandenburg, Soheil Ershadrad, Johanna Rosén, Michael Felsberg, Filip Ekström Kelvinius

AI总结本文提出了一种名为SymADiT的对称感知材料生成模型，旨在改进现有的全原子扩散变换器（ADiT）。该方法基于Wyckoff位置对材料进行表征，并在潜在空间中进行生成建模，通过强制生成结果满足晶体空间群和原子Wyckoff位置的对称性约束，从而生成具有更真实对称特性的材料。实验表明，SymADiT在生成稳定且对称的材料方面表现出与现有模型相当甚至更优的性能。

Comments Preprint

2605.10114 2026-05-12 cs.CL

SkillRAE: Agent Skill-Based Context Compilation for Retrieval-Augmented Execution

Xiangcheng Meng, Shu Wang, Yixiang Fang

AI总结 SkillRAE 是一种基于技能的上下文编译方法，旨在提升检索增强执行（RAE）在复杂任务中的表现。该方法分为离线和在线两个阶段，离线阶段构建多级技能图谱以捕捉技能之间的关系，在线阶段通过技能排序检索和关键证据编译生成紧凑、可靠且易于使用的任务上下文。实验表明，SkillRAE 在多个基准测试中显著优于现有方法，展示了其在上下文编译方面的有效性与重要性。

2605.07846 2026-05-12 cs.CV

BRIDGE: Background Routing and Isolated Discrete Gating for Coarse-Mask Local Editing

Peilin Xiong, Honghui Yuan, Junwen Chen, Keiji Yanai

AI总结本文研究了粗粒度掩码局部图像编辑中因掩码形状偏差导致的编辑区域边界失真问题，提出了一种名为BRIDGE的方法。该方法通过将掩码分离于DiT主干网络之外，并引入可学习的离散几何门控机制，实现背景稳定与编辑区域灵活生成的双重约束。实验表明，BRIDGE在多个基准测试中显著提升了编辑质量，同时保持了模型的轻量化特性。

Comments 11 pages, 6 figures

2605.07820 2026-05-12 cs.LG

Scaling Categorical Flow Maps

Oscar Davis, Anastasiia Filippova, Pierre Ablin, Victor Turrisi, Amitis Shidani, Marco Cuturi, Louis Béthune

AI总结本文研究了如何扩展分类流图（CFMs）在大规模语言建模中的应用，提出了一种基于1.7B参数的流模型，并通过自蒸馏方法将其转化为能够在4步内生成高质量文本的CFM。该方法在保持接近数据级词元熵的同时，实现了与离散扩散模型相当的性能。此外，作者还引入了半离散设置下的似然界，并探讨了大规模训练中出现的挑战及损失权重和时间调度的优化策略。

Comments Minor style changes

2605.07786 2026-05-12 cs.CV cs.AI

APEX: Assumption-free Projection-based Embedding eXamination Metric for Image Quality Assessment

Caterina Gallegati, Monica Bianchini, Franco Scarselli, Vittorio Murino, Barbara Toniella Corradini

AI总结随着生成模型在视觉质量上取得突破，传统的基于特征分布的图像评估指标（如FID）仍被视为黄金标准，但其受到过时特征和参数化假设的限制。为解决这些问题，本文提出APEX，一种基于切片沃谢尔距离的无假设嵌入评估框架，无需依赖特定参数形式，且能兼容多种嵌入模型，如CLIP和DINOv2。实验表明，APEX在高维空间中具有良好可扩展性，对视觉退化具有更强鲁棒性，并在跨数据集评估中表现出高度稳定性。

2605.07575 2026-05-12 cs.CV cs.AI

Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding

Ke Ma, Jiaqi Tang, Bin Guo, Xueting Han, Ruonan Xu, Qingfeng He, Ziheng Wang, Xu Wang, Qifeng Chen, Zhiwen Yu, Yunhao Liu

AI总结本文提出了一种名为Response-G1的新型框架，旨在解决流媒体视频理解中主动响应时机判断的问题。该方法通过显式的场景图建模，将视频内容与查询响应条件进行结构化对齐，从而提升响应决策的准确性和可解释性。框架包含三个无需微调的阶段，包括在线生成场景图、基于记忆的语义检索以及增强触发提示，实验表明其在主动和被动任务中均优于现有方法。

Comments Accepted to ACL 2026