arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11884 2026-05-13 cs.LG

Sobolev Regularized MMD Gradient Flow

Chenyang Tian, Bharath K. Sriperumbudur, Arthur Gretton, Zonghao Chen

AI总结本文提出了一种基于Sobolev正则化的最大平均差异（SrMMD）梯度流，通过在见证函数上施加梯度惩罚来改进传统MMD梯度流。该方法有效缓解了MMD目标函数的非凸性，并在连续和离散时间下均提供了可证明的全局收敛性保证。不同于以往工作仅适用于生成建模或采样中的一个场景，本文提出的梯度流同时适用于非归一化目标分布的采样和生成建模任务，且其收敛性分析不依赖于目标分布的等周假设，而是基于核均值嵌入差异的正则性条件。

2605.11882 2026-05-13 cs.AI

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Bo Yin, Qi Li, Xinchao Wang

AI总结该研究针对工具使用型大语言模型代理在执行过程中可能产生的不安全行为，提出了一种基于失败轨迹的在线策略自我进化框架FATE。该方法通过将验证器评估的失败轨迹转化为修复监督信号，指导代理自我优化，同时引入帕累托前沿策略优化以平衡安全与任务效用。实验表明，FATE在多个基准上显著提升了代理的安全性，同时保持了其任务执行能力。

2605.11880 2026-05-13 cs.LG cs.MA

Adaptive TD-Lambda for Cooperative Multi-agent Reinforcement Learning

Yue Deng, Zirui Wang, Yin Zhang

AI总结该论文研究了在合作多智能体强化学习中如何自适应地设置TD($λ$)参数，以提升值估计的稳定性与效率。作者提出了一种基于参数化似然比估计的方法，避免了传统统计计算策略分布的困难，并利用两个不同规模的回放缓冲区来区分历史和当前策略的数据分布。通过将自适应TD($λ$)值分配给状态-动作对，该方法在多个基准环境中表现出优于或与静态$λ$方法相当的性能。

2605.11872 2026-05-13 cs.LG stat.ML

LOFT: Low-Rank Orthogonal Fine-Tuning via Task-Aware Support Selection

Lanxin Zhao, Bamdev Mishra, Pratik Jawanpuria, Lequan Lin, Dai Shi, Junbin Gao, Andi Han

AI总结该论文提出了一种名为LOFT的低秩正交微调框架，旨在解决现有正交参数高效微调方法中子空间选择与变换方式混淆的问题。LOFT通过将正交微调视为子空间旋转，统一了多种已有方法，并将支持选择作为核心设计要素，提出了基于任务信号的实用支持选择策略。实验表明，LOFT在多个任务中表现出优越的效率与性能平衡，突显了合理支持选择对提升正交微调效果的重要性。

2605.11870 2026-05-13 cs.LG cs.IT math.IT

Information theoretic underpinning of self-supervised learning by clustering

Josef Kittler, Sara Atito, Muhammad Awais

AI总结本文从信息论角度探讨了自监督学习中聚类方法的理论基础，将自监督学习建模为K-L散度优化问题，并通过引入教师分布的优化约束防止模式崩溃。研究提出了基于逆聚类先验的归一化方法，并揭示了其与批量中心化策略的理论联系，为自监督学习中常用的蒸馏和中心化技术提供了理论支撑。

2605.11869 2026-05-13 cs.CV cs.LG

FIS-DiT: Breaking the Few-Step Video Inference Barrier via Training-Free Frame Interleaved Sparsity

Jian Tang, Jiawei Fan, Qingbin Liu, Zheng Wei

AI总结视频扩散变换器（DiT）在推理速度上的提升虽可通过模型蒸馏实现，但每步推理延迟仍是关键瓶颈。现有方法主要依赖去噪轨迹中的冗余性，但在少步推理场景下效果有限，因时间状态稀缺导致特征复用困难。为此，本文提出一种无需训练、操作无关的FIS-DiT框架，将优化重点从时间轨迹转移到潜空间帧维度，通过帧交错稀疏策略在模型层次上操作帧子集，实现高效推理。实验表明，FIS-DiT在多个数据集上实现了2.11到2.41倍的加速，且在多项指标上几乎无性能损失。

2605.11863 2026-05-13 cs.CV eess.IV

GATA2Floor: Graph attention for floor counting in street-view facades

Ngoc Tan Le, Tzoulio Chamiti, Eirini Papagiannopoulou, Nikos Deligiannis

AI总结本文研究如何从街景立面图像中自动分析建筑的楼层数量，提出了一个基于图注意力机制的模型GATA2Floor。该方法将建筑立面建模为包含窗户和门的图结构，并引入多头图注意力网络来预测楼层数，同时通过可学习的跨注意力查询将元素分配到潜在的楼层槽位，从而获得可解释且鲁棒的结果。为了解决数据标注不足的问题，作者还提出了一种无需标注的轻量级提案机制，利用自监督特征和视觉-语言评分实现无监督学习，展示了图注意力关系推理在立面理解中的有效性。

Comments Accepted at IEEE ICIP 2026; 6 pages, 5 figures, 3 tables

2605.11862 2026-05-13 cs.CL

Concordance Comparison as a Means of Assembling Local Grammars

Juliana Pirovani, Elias de Oliveira, Eric Laporte

AI总结本文研究了如何通过比较局部语法（LG）的搭配信息来构建更优的局部语法，以提升人名实体识别的性能。作者提出了一种基于搭配对比的方法，通过分析不同局部语法之间的包含、交集和排斥关系，选择并组合出效果最佳的语法结构。该方法在葡萄牙语人名提取任务中取得了76.86的F值，相比现有最佳方法提升了6个百分点。

2605.11859 2026-05-13 cs.RO cs.AI

EvoNav: Evolutionary Reward Function Design for Robot Navigation with Large Language Models

Zhikai Zhao, Chuanbo Hua, Federico Berto, Zihan Ma, Kanghoon Lee, Jiachen Li, Jinkyoo Park

AI总结本文提出了一种基于进化算法和大语言模型的机器人导航奖励函数设计框架EvoNav，旨在解决传统人工设计奖励函数依赖领域专业知识、难以适应复杂环境的问题。该方法通过分阶段的预热-提升流程，利用大语言模型生成候选奖励函数，并结合低成本代理和逐步强化训练，显著提高了设计效率与导航策略性能。实验表明，EvoNav生成的导航策略优于手动设计和现有先进方法。

2605.11857 2026-05-13 cs.LG

Beyond Parameter Aggregation: Semantic Consensus for Federated Fine-Tuning of LLMs

Amr Abourayya, Jens Kleesiek, Michael Kamp

AI总结本文提出了一种新的联邦微调方法，突破传统参数聚合的限制，通过模型行为而非参数进行协作。客户端在本地数据上微调模型，并在共享的公共提示集上生成输出，服务器将这些输出映射到语义空间，形成每条提示的语义共识并返回伪标签供进一步微调。该方法显著降低了通信开销，与模型规模无关，适用于异构架构和开放文本生成，并在实验中表现出与现有方法相当的效果，同时大幅减少通信量、运行时间和能耗。

2605.11856 2026-05-13 cs.CV cs.CL

UniVLR: Unifying Text and Vision in Visual Latent Reasoning for Multimodal LLMs

Houcheng Jiang, Jiajun Fu, Junfeng Fang, Chen Gao, Xiang Wang, Xiangnan He, Yong Li

AI总结本文提出了一种统一的视觉潜层推理框架UniVLR，旨在提升多模态大语言模型在图像推理任务中的效率与表现。该方法将文本推理与辅助视觉信息整合到共享的视觉工作空间中，通过联合生成推理轨迹和图像信息，并将其压缩为紧凑的视觉潜层表示，从而在推理时仅依赖视觉潜层进行推理并直接生成答案，避免了显式文本推理和外部工具调用。实验表明，UniVLR在实际感知与视觉推理任务中优于现有方法，且生成的推理标记更少，展示了更高效统一的视觉推理范式。

2605.11846 2026-05-13 cs.LG cs.AI

Martingale-Consistent Self-Supervised Learning

Moritz Gögl, Hanwen Xing, Christopher Yau

AI总结本文研究了在信息不完整或动态变化的环境下，如何提升自监督学习（SSL）的鲁棒性和一致性。作者提出了一种基于鞅理论的自监督学习框架，确保粗略预测与精炼预测在期望上保持一致，从而防止系统性偏差。该方法引入了预测空间和潜在空间的变体，并设计了无偏的蒙特卡洛估计器，实验表明其在部分观测场景下能提升模型的稳定性与校准能力。

2605.11845 2026-05-13 cs.CL

Probabilistic Calibration Is a Trainable Capability in Language Models

Davide Baldelli, Sruthi Kuriakose, Maryam Hashemzadeh, Amal Zouaq, Sarath Chandar

AI总结该研究探讨了语言模型在满足用户指定随机性约束时，其生成概率与目标分布之间校准不佳的问题，并通过微调方法提升这一能力。研究者提出了两种校准微调方法：一种基于软目标，将目标分布转化为词序树导出的下一个词目标；另一种基于硬目标，通过目标分布采样完成进行训练。实验表明，这两种方法均能有效提升模型在多种分布和参数设置下的结构化采样准确性，证明概率校准是可以通过微调增强的能力。

2605.11840 2026-05-13 cs.CV

Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation

Zhangcheng Hou, Tomoaki Ohtsuki

AI总结本文研究了如何利用雷达信号提升雷达-相机深度估计的性能，提出了一种基于状态空间模型的雷达调制选择机制（RMS），将雷达信息直接融入模型的扫描过程，而非传统的特征融合方式。该方法通过雷达对扫描步长和读取参数进行调制，在保证图像主干网络不变的前提下，仅在雷达能提升精度的区域引入雷达影响，从而实现更高效、准确的深度估计。实验表明，该方法在nuScenes数据集上取得了显著的性能提升，并且具有更低的计算延迟。

Comments 16 pages, 3 figures, 9 tables

2605.11838 2026-05-13 cs.LG math.OC

Gradient Clipping Beyond Vector Norms: A Spectral Approach for Matrix-Valued Parameters

Alexander Yukhimchuk, Mladen Kolar, Martin Takáč, Sayantan Choudhury

AI总结本文研究了在现代神经网络训练中如何更有效地应用梯度裁剪技术，针对参数矩阵的结构提出了一种新的方法。作者发现，数据异常值主要影响梯度矩阵的前几个奇异值，因此提出基于奇异值的梯度裁剪方法，通过限制超过阈值的奇异值来稳定训练过程。该方法不仅推广了传统的向量范数裁剪，还提供了对重尾噪声的收敛性分析，并通过随机截断SVD实现了高效的实现，适用于大规模神经网络层。

2605.11836 2026-05-13 cs.LG cs.CL

More Edits, More Stable: Understanding the Lifelong Normalization in Sequential Model Editing

Xin Ma, Wei Chen, Qi Liu, Derong Xu, Zhi Zheng, Tong Xu, Enhong Chen

AI总结本文研究了在连续模型编辑过程中保持大型语言模型稳定性的关键机制，提出了“终身归一化”（Lifelong Normalization, LN）这一核心策略，并首次从理论上解释了其作用机制。研究发现，LN通过运行统计量对梯度进行归一化，能够形成自我强化的稳定性循环，结合岭正则回归可有效抑制遗忘和系统崩溃。基于这些发现，作者提出了StableEdit方法，通过引入预热阶段和全白化处理，进一步提升了长期编辑的稳定性，实验验证了理论的有效性。

2605.10916 2026-05-13 cs.CV cs.AI

Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition

Md. Sultan Al Rayhan

AI总结识别手写孟加拉语复合字符是一个具有挑战性的问题，主要由于字符结构复杂、类内变化大以及高质量标注数据有限。本文提出了一种基于置信度引导的扩散增强框架，用于提升低分辨率孟加拉语复合字符的识别性能。该方法结合了类别条件扩散模型和分类器引导技术，生成高质量的合成样本，并引入了增强残差块和置信度过滤机制，以提升生成质量并筛选出类别一致性高的样本。实验表明，该方法在多个主流模型上均取得性能提升，最佳模型在AIBangla数据集上的分类准确率达到89.2%，显著优于现有基准。

2605.10818 2026-05-13 cs.LG q-bio.NC

On periodic distributed representations using Fourier embeddings

Jakeb Chouinard

AI总结本文研究了如何利用傅里叶嵌入构建周期性分布式表示，以更好地处理角度等周期性信号。作者提出使用高维实值周期嵌入，解决传统标量角度表示在处理接近角度时的困难，并通过点积相似性控制不同核函数的形状。研究重点在于利用空间语义指针这一神经可解释的表示方法，形式化定义狄利克雷核和周期高斯核，为周期性信号的建模提供了新的思路。

2605.10684 2026-05-13 cs.LG cs.AI

Is Data Shapley Not Better than Random in Data Selection? Ask NASH

Xiao Tian, Jue Fan, Rachael Hwee Ling Sim, Zixuan Wang, Nancy F. Chen, Bryan Kian Hsiang Low

AI总结本文研究了如何从训练数据中选择高质量子集的问题，探讨了数据选择中使用Data Shapley等方法的有效性。针对Data Shapley在实践中表现不稳定的问题，作者提出了NASH框架，通过将目标效用函数分解为更简单的Shapley-信息组件，并非线性地聚合这些组件进行数据选择，显著提升了基于Shapley的数据选择效果，且仅需少量额外计算成本。

Comments Accepted to the 43rd International Conference on Machine Learning (ICML-26) as a Spotlight paper

2605.10360 2026-05-13 cs.CV

DySurface: Consistent 4D Surface Reconstruction via Bridging Explicit Gaussians and Implicit Functions

Minje Kim, Younghyun Noh, Jaesoon Kim, Tae-Kyun Kim

AI总结本文提出了一种名为DySurface的新框架，用于解决动态场景中重建时间一致的4D表面的挑战。该方法结合了显式的高斯点和隐式的符号距离函数（SDF），通过构建动态稀疏体素网格，为隐式SDF场提供明确的几何引导，从而显著提升了表面重建的质量，实现了更精确的边界和细节表现。实验表明，DySurface在几何精度方面优于现有先进方法，同时保持了良好的渲染性能。

2605.10288 2026-05-13 cs.LG math.OC

BROS: Bias-Corrected Randomized Subspaces for Memory-Efficient Single-Loop Bilevel Optimization

Hengrui Zhang, Boao Kong, Engao Zhang, Kun Yuan

AI总结本文提出了一种名为BROS的高效单循环双层优化方法，旨在解决深度学习中超参数学习、数据重加权等问题。该方法通过在随机子空间中进行梯度更新，并结合Rademacher双探针校正技术，实现了对Hessian算子的无偏估计，从而在降低内存消耗的同时保持与精确单循环方法相近的收敛速度。实验表明，BROS在多个任务中相比现有方法可减少高达44.9%的峰值内存使用，同时保持相近的性能。

2605.10235 2026-05-13 cs.CL

Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection

Yiwen Chen, Kuan Li, Fuzhen Zhuang, Deqing Wang, Zhao Zhang, Liwen Zhang, Yong Jiang, Shuai Wang, Minhao Cheng

AI总结本文研究了在大语言模型（LLM）中如何有效选择检索增强生成（RAG）与长上下文（LC）策略的问题，提出了一种名为Pre-Route的主动路由框架。该方法通过利用文档类型、长度等轻量级元数据进行结构化推理，在回答前完成任务分析、覆盖估计和信息需求预测，从而生成可解释且高效的成本决策。实验表明，Pre-Route在多个基准上优于现有方法，展现出更高的整体成本效益。

2605.10094 2026-05-13 cs.RO cs.AI

Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs

Jianchao Zhao, Huoren Yang, Yusong Hu, Yuyang Gao, Qiguan Ou, Cong Wan, SongLin Dong, Zhiheng Ma, Yihong Gong

AI总结本文研究了在持续部署环境下如何提升冻结的视觉-语言-动作（VLA）模型在测试时的可靠性问题。提出了一种基于在线成功记忆的测试时自适应框架，通过在部署过程中存储成功的观察-动作片段，并在推理时检索相关动作片段进行轨迹一致性过滤和聚合，生成高质量的动作先验。该方法引入了置信度自适应的先验引导机制，将先验信息注入动作生成流程，实现了无需参数更新的轻量级自适应，实验表明该方法在长时间和多阶段任务中显著提升了任务成功率和闭环稳定性。

2605.09965 2026-05-13 cs.CV

Towards Generalist Game Players: An Investigation of Foundation Models in the Game Multiverse

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Tianyu Xin, Yue Su, Haisheng Wang, Han Yin, Hongbo Ma, Peize Li, Tianjun Gu, Xiangnan Wu, Xinran Zhang, Yongxuan Li, Zirong Chen, Yiming Li

AI总结该研究探讨了如何通过基础模型实现通用游戏玩家，旨在使人工智能具备在由不同规则、目标和物理特性构成的“游戏多元宇宙”中灵活适应和表现的能力。研究从数据集、模型、应用框架和评估基准四个相互关联的支柱出发，分析了通用游戏玩家的完整生命周期，并指出了当前系统面临的五大根本性权衡。通过这一整体视角，论文提出了一个五阶段的发展路线图，从单一游戏精通逐步迈向能够同时创造和演化于理论游戏多元宇宙的终极创造者阶段，为实现通用人工智能（AGI）提供了系统性指导。

Comments 51 pages, 7 figures, github: https://github.com/THUSI-Lab/Awesome-LFMs-Play-Games

2605.09780 2026-05-13 cs.AI

Attribution-based Explanations for Markov Decision Processes

Paul Kobialka, Andrea Pferscher, Francesco Leofante, Erika Ábrahám, Silvia Lizeth Tapia Tarifa, Einar Broch Johnsen

AI总结本文研究如何为马尔可夫决策过程（MDP）生成基于归因的解释，以阐明智能体在序列决策中的行为逻辑。作者提出了一种形式化框架，用于在MDP中分配状态和执行路径的重要性分数，并利用策略合成技术高效计算这些分数，克服了MDP中非确定性的挑战。通过五个案例研究验证了方法的有效性，展示了其在提供可解释决策洞察方面的应用价值。

2605.09769 2026-05-13 cs.AI

UTS at PsyDefDetect: Multi-Agent Councils and Absence-Based Reasoning for Defense Mechanism Classification

Dima Galat, Marian-Andrei Rizoiu

AI总结本文介绍了一种用于情感支持对话中心理防御机制分类的系统，基于防御机制评分量表（DMRS），在64支队伍中排名第二（F1值为0.406）。研究核心在于将防御机制定义为缺失的方面（如情感缺失、认知阻滞、现实否认），并通过情感-认知整合光谱在提示级别的临床规则中进行编码，显著提升了分类性能。系统采用多阶段的Gemini 2.5代理委员会架构，通过类特定倡导者评估证据强度而非简单投票，无需微调即取得良好效果，最终结合三个微调Qwen3.5模型的定向覆盖策略进一步提升了性能。

2605.09271 2026-05-13 cs.AI

Shaping Schema via Language Representation as the Next Frontier for LLM Intelligence Expanding

Zhiqin Yang, Yuhan Liu, Jingwen Fu, Pei Fu, Bo Han, Masashi Sugiyama, Nanning Zheng

AI总结尽管自然语言是大语言模型（LLM）的默认输入媒介，但其表达能力的局限性在复杂问题求解中形成了瓶颈。本文提出，通过先进的语言表征来构建知识框架（schema）是拓展LLM智能的下一步关键方向，并论证了语言表征的结构和符号复杂性对模型知识激活与组织方式的重要影响。研究通过理论阐述与实验验证，展示了精心设计的语言表征能够在不改变模型参数或规模的前提下显著提升模型性能，为未来研究提供了新的思路和方向。

Comments 41 pages, 30 figures

2605.09266 2026-05-13 cs.AI

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning

Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang

AI总结本文提出 SeePhys Pro，一个用于研究多模态模型在文本向图像逐步转移信息时是否保持相同推理能力的细粒度基准。该基准包含每个问题的四个语义对齐的变体，视觉元素逐步增加，实验表明当前前沿模型在从语言到图表的信息转移过程中性能下降，视觉变量的 grounding 是关键瓶颈。研究进一步通过盲训练等方法分析模型改进的来源，发现部分提升可能源于文本残留线索而非真实视觉证据，强调多模态推理评估应关注模态迁移下的鲁棒性及对关键视觉证据的依赖性。

2605.09236 2026-05-13 cs.CL cs.AI cs.CY cs.DL cs.IR

Matching Meaning at Scale: Evaluating Semantic Search for 18th-Century Intellectual History through the Case of Locke

Yu Wu, Ananth Mahadevan, Filip Ginter, Michael Mathioudakis, Mikko Tolonen

AI总结本文通过研究约翰·洛克思想在18世纪的传播，评估了语义搜索在分析历史语料中思想传播的有效性。研究采用基于语义分类的专家标注，检验现成语义搜索方法能否发现传统基于词汇重用方法所忽略的隐含引用。结果表明，语义搜索能检索到更多隐性思想影响，但也揭示了表面词汇重叠对检索结果的限制，突显了语义检索在历史语料分析中的潜力与局限。

Comments Accepted by NLP4DH 2026

2605.09127 2026-05-13 cs.RO

IMPACT: An Implicit Active-Set Augmented Lagrangian for Fast Contact-Implicit Trajectory Optimization

Jiayun Li, Dejian Gong, Georgia Chalvatzaki

AI总结 IMPACT 是一种用于接触隐式轨迹优化（CITO）的隐式增广拉格朗日方法，旨在高效求解包含互补约束的数学规划问题。该方法能够在轨迹优化过程中动态识别接触模式分支，从而提升求解效率与稳定性。实验表明，IMPACT 在多个基准测试中显著优于现有方法，并在实际机器人系统上实现了高质量的接触丰富任务控制。

Comments Accepted to Robotics: Science and Systems (RSS), 2026