arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10675 2026-05-12 cs.CV

Neuromorphic Monocular Depth Estimation with Uncertainty Modeling

Viktor Bergkvist, Felix Rydell, Per-Erik Forssén, David Gustafsson, Johan Rideg

AI总结本文研究了基于事件相机的单目深度估计问题，提出了一种结合不确定性建模的神经形态深度估计方法。通过使用高斯、对数正态和证据学习框架，模型能够预测每个像素的深度分布并估计其不确定性。实验比较了六种事件表示方式，并在合成数据上训练、在真实序列上微调U-Net模型，结果表明不确定性建模能有效提升深度估计的可靠性，并在多种指标下表现优异。

2605.10674 2026-05-12 cs.LG cs.AI cs.CL cs.SE

Step Rejection Fine-Tuning: A Practical Distillation Recipe

Igor Slinko, Ilia Zavidnyi, Egor Bogomolov, Yaroslav Zharov

AI总结本文提出了一种名为“步骤拒绝微调”（SRFT）的新方法，用于改进大语言模型在解决编程任务中的训练效果。与传统的拒绝微调（RFT）方法不同，SRFT 不直接丢弃无法解决的任务轨迹，而是利用一个批评模型评估轨迹中每一步的正确性，仅对错误步骤进行损失掩码，从而保留错误上下文以帮助模型学习从错误中恢复。实验表明，SRFT 在 SWE-bench Verified 数据集上实现了 32.2% 的任务解决率，比 RFT 提高了 3.7%。

2605.10673 2026-05-12 cs.LG

Compander-Aligned Query Geometry for Quantized Zeroth-Order Optimization

Yao Shu, Zilin Zhu

AI总结本文研究了低精度前向计算在零阶优化（ZO）中的应用，指出量化后的ZO查询无法简单视为连续有限差分加上无害的存储舍入，而是涉及端点选择、量化舍入和沿舍入弦测量损失差的问题。为此，作者提出了一种名为CAQ-ZO的方法，通过引入查询几何的概念，将非均匀压缩量化建模为特定变换，并在变换域中构造Rademacher模板，从而实现查询时间残差的精确消除。实验表明，该方法在保持相同量化器和评估预算的前提下，能有效提升模型的微调性能。

2605.10671 2026-05-12 cs.LG math.OC stat.ML

Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework

Phalguni Nanda, Zaiwei Chen

AI总结本文将强化学习中的自然策略梯度算法表示为一种双重平滑策略迭代（DSPI）形式，并将其嵌入到贝尔曼算子的框架中。该框架通过在历史 Q 函数的加权平均上应用正则化贪心步骤来生成策略，涵盖了策略迭代、双平均策略迭代等多种方法。作者证明了 DSPI 在无需修改 MDP 或使用轨迹依赖步长的情况下，具有分布无关的全局几何收敛性，并给出了自然策略梯度和策略双平均方法的迭代复杂度上界。此外，该框架还可扩展至具有线性函数逼近的折扣 MDP 和随机最短路径问题。

2605.10668 2026-05-12 cs.LG math.OC math.ST stat.TH

A Spectral Framework for Closed-Form Relative Density Estimation

Francis Bach

AI总结本文提出了一种用于线性参数化概率模型（包括未归一化和条件模型）中相对对数密度估计的闭式谱框架。该方法通过将KL散度表示为加权卡方散度的积分，将KL估计转化为一系列最小二乘问题，并基于一阶和二阶特征矩导出了显式的谱公式，从而得到闭式散度和对数密度势估计。该框架适用于广泛的f散度，并可与核方法或神经网络特征学习结合，理论证明了估计器的收敛性，并在合成数据上与基于优化的变分方法进行了实验对比。

2605.10663 2026-05-12 cs.AI

Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents

Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong, Yao Hu, Jiawei Li

AI总结 Evolving-RL 是一种端到端优化框架，旨在提升智能体在部署时通过经验驱动实现自我演进的能力。该方法通过联合优化经验提取与利用过程，使大型语言模型能够更有效地学习和复用历史经验，从而在新任务上表现出更强的适应性。实验表明，Evolving-RL 显著提升了模型在分布外任务中的性能，且其效果依赖于经验提取与利用的协同进化。此外，该方法还作为一种增强型强化学习算法，能够在无需测试时经验积累的情况下提升模型表现。

Comments 17pages, 5 figures

详情

英文摘要

Experience-driven self-evolving agents aim to overcome the static nature of large language models by distilling reusable experience from past interactions, thus enabling adaptation to novel tasks at deployment time. This process places substantial demands on the foundation model's capacities for abstraction, generalization, and in-context learning. However, most existing studies focus primarily on system-level design choices, such as how experience is represented and managed, neglecting the inherent capabilities of the underlying model. While some recent works have started to optimize the experience utilization stage via reinforcement learning, they still fail to treat self-evolution as a unified process to be jointly optimized. To this end, we propose Evolving-RL, an efficient algorithmic framework that jointly improves the experience extraction and utilization capabilities required for self-evolution. Specifically, we center the learning process on experience extraction and evaluation, using the two supervisory signals derived from evaluation to optimize the extractor and solver separately and thus enable their coordinated co-evolution. Experiments on ALFWorld and Mind2Web show that Evolving-RL effectively enhances LLMs' ability to extract and reuse experience, leading to strong performance gains on out-of-distribution tasks (up to 98.7% relative improvement over the GRPO baseline on ALFWorld unseen tasks and 35.8% on Mind2Web), and these gains are fully unlocked only through the coordinated co-evolution of experience extraction and utilization. Furthermore, Evolving-RL inherently functions as an experience-augmented RL algorithm. By internalizing reusable experience patterns directly into model parameters, it achieves remarkable performance gains over standard baselines on both seen and unseen tasks, even in the absence of test-time experience accumulation.

URL PDF HTML ☆

赞 0 踩 0

2605.10661 2026-05-12 cs.CV cs.AI

bViT: Investigating Single-Block Recurrence in Vision Transformers for Image Recognition

Michal Byra, Pawel Olszowiec, Grzegorz Stefanski, Grzegorz Gruszczynski, Alberto Presta

AI总结本文研究了视觉Transformer（ViT）中是否可以通过单块循环结构替代传统的多层独立参数化结构。提出了一种名为bViT的模型，该模型仅使用一个Transformer块进行重复计算来处理图像，从而在保持深度结构的同时大幅减少参数量。实验表明，在相同训练条件和计算预算下，bViT在ImageNet-1K上达到了与标准ViT相当的性能，且参数数量减少了约一个数量级，展示了循环结构在视觉任务中的有效性与潜力。

Comments 31 pages, 16 figures

2605.10659 2026-05-12 cs.CL cs.AI cs.SI stat.ML

When Can Digital Personas Reliably Approximate Human Survey Findings?

Mumin Jia, Yilin Chen, Divya Sharma, Jairo Diaz-Rodriguez

AI总结本文探讨了大型语言模型（LLM）生成的数字人像在何种程度上能够可靠地模拟人类在调查中的回答。研究利用LISS调查数据集构建数字人像，并与真实受访者后续的回答进行对比，评估其在不同任务和层次上的表现。结果表明，数字人像在稳定属性和价值观相关的领域表现较好，但在个体预测和多维结构恢复方面仍存在局限，且其效果更多依赖于人类回答的结构而非模型选择。

2605.10658 2026-05-12 cs.LG

Why Zeroth-Order Adaptation May Forget Less: A Randomized Shaping Theory

Yao Shu, Jian Mu, Zhongxiang Dai

AI总结本文研究了零阶（ZO）适应在持续学习中可能比一阶（FO）方法遗忘更少的原因，提出了一个局部随机梯度塑形理论。通过有限差分分析，揭示了ZO适应形状与FO梯度在均值上对齐，且其范数匹配特性使得遗忘行为依赖于适应形状所暴露的保留曲率。研究发现，在范数匹配的ZO方法中，保留曲率的期望满足一个精确恒等式，从而在保持各向同性保留下界的同时，仅压缩各向异性部分，最终在梯度投影下形成FO与ZO之间的二次遗忘差距。基于此理论，作者提出了RISE算法，将校准后的ZO形状应用于精确FO梯度，实现稳定性与可塑性的平衡。

2605.10655 2026-05-12 cs.LG

BCJR-QAT: A Differentiable Relaxation of Trellis-Coded Weight Quantization

Venugopalan Iyengar

AI总结本文提出了一种名为BCJR-QAT的可微分松弛方法，用于解决网格编码量化（Trellis-Coded Quantization）在量化感知训练（QAT）中的非可微问题。该方法通过引入BCJR前向-后向算法替代非可微的Viterbi算法，实现了对网格路径的软量化，从而支持端到端训练。研究还贡献了高效的实现内核、理论分析以及在大语言模型上的实验验证，表明其在保持2比特每词精度下优于现有方法。

Comments 26 pages, 4 figures, 4 tables. Code at https://github.com/Venugopalan2610/quant-2bit. Model weights and trajectory snapshots at https://huggingface.co/Venugopalan2610/BCJR-QAT-Llama-3.2-1B-2bit

2605.10654 2026-05-12 cs.LG cs.AI

Active Learning for Gaussian Process Regression Under Self-Induced Boltzmann Weights

Jixiang Qing, Henry Moss, Matthias Sachs

AI总结本文研究了在由未知函数自身诱导的玻尔兹曼分布下的高斯过程回归主动学习问题，该问题在计算化学中的势能面建模等场景中具有重要意义。为了解决目标分布未知且难以计算配分函数的挑战，作者提出了一种基于高斯过程的获取函数AB-SID-iVAR，能够在不估计配分函数的情况下近似目标分布，并适用于离散和连续输入域。实验表明，该方法在合成数据集和实际任务中均优于现有方法。

2605.10653 2026-05-12 cs.RO

Embodied AI in Action: Insights from SAE World Congress 2026 on Safety, Trust, Robotics, and Real-World Deployment

Jan-Mou Li, Paul Schmitt, Wei Tong, Majed Mohammed, Akshay Chalana, Arpan Kusari, Edward Griffor

AI总结本文基于SAE世界大会2026“具身人工智能实践”专题讨论，探讨了具身人工智能在自动驾驶、机器人和工业设备等现实系统中的应用所面临的安全、信任与可靠性挑战。研究强调需从系统工程角度出发，结合全生命周期治理、以人为本的设计和不断演进的标准，推动具身人工智能的负责任部署。文章为技术领导者、政策制定者提供了实际指导，指出其长期成功不仅依赖于AI能力的提升，更取决于安全可靠的实施方式。

2605.10651 2026-05-12 cs.LG cs.AI stat.ML

A Recursive Decomposition Framework for Causal Structure Learning in the Presence of Latent Variables

Zheng Li, Feng Xie, Shenglan Nie, Xichen Guo, Ruxin Wang, Hao Zhang

AI总结本文提出了一种名为DiCoLa的递归分解框架，用于在存在潜在变量的情况下进行因果结构学习。该方法通过递归分解全局学习任务为更小的子问题，并通过原理化的重构步骤整合子问题的解，从而恢复全局因果结构。该框架在理论上保证了其正确性和完备性，并在合成数据和真实数据上的实验表明，它显著提升了多种因果发现算法的计算效率。

2605.10650 2026-05-12 cs.LG cond-mat.dis-nn

A Random-Matrix Criterion for Initializing Gated Recurrent Neural Networks

Tommaso Fioratti, Riccardo Marcaccioli, Francesco Casola

AI总结本文研究了门控循环神经网络（Gated RNN）中权重初始化对模型性能的影响，提出了一种基于随机矩阵理论的初始化准则。该准则能够有效估计使模型处于临界状态的权重方差阈值，从而在混沌预测任务中实现最佳性能。研究还表明，该准则可作为未来初始化方案设计的重要指导原则。

Comments 10 pages, 5 figures, 2 appendices

2605.10647 2026-05-12 cs.AI cs.CR

diffGHOST: Diffusion based Generative Hedged Oblivious Synthetic Trajectories

Florent Guépin, Cheick Tidiani Cisse, Denis Renaud, François Bidet, Arnaud Legendre

AI总结随着轨迹数据在众多应用中的重要性日益增加，如何在保护隐私的同时利用这些数据成为关键问题。本文提出diffGHOST，一种基于潜在空间分割的条件扩散模型，旨在生成具有实用价值且隐私风险可控的合成轨迹。该方法通过识别并缓解关键样本的记忆效应，有效提升了生成轨迹的隐私保护能力。

2605.10645 2026-05-12 cs.CV

GenMed: A Pairwise Generative Reformulation of Medical Diagnostic Tasks

Hantao Zhang, Weidong Guo, Yuhe Liu, Jiancheng Yang, Sathvik Bhagavan, Danli Shi, Mingda Xu, Pascal Fua

AI总结本文提出了一种基于生成模型的新型医学诊断框架GenMed，通过联合建模输入与输出的联合分布 $P(X,Y)$，将诊断任务重新定义为推理时的输出优化问题。该方法利用扩散模型，在不改变模型结构或重新训练的前提下，实现了对多样化输入条件的灵活梯度引导，有效支持跨模态、少样本和零样本等复杂场景下的医学图像分割任务。实验表明，GenMed 在多种医学影像任务中表现出色，并配套发布了大规模文本-形状数据集以支持相关研究。

2605.10643 2026-05-12 cs.CL cs.LG

A Single-Layer Model Can Do Language Modeling

Zanmin Wang

AI总结本文研究了如何通过单层结构实现语言建模，提出了一种基于循环机制的 Grounded Prediction Networks（GPN）模型，该模型仅使用一个共享的状态向量和一个递归块进行信息处理。实验表明，即使在参数规模较小的情况下，GPN 也能达到与多层模型相当的性能，并揭示了其状态向量中包含的持久默认标记方向、内容承载窗口以及自发形成的快慢记忆池等结构特征。

Comments 9 pages, 5 figures, 1 table. Code: https://github.com/steve-z-wang/grounded-prediction-network

2605.10642 2026-05-12 cs.LG cond-mat.stat-mech

Composing diffusion priors with explicit physical context via generative Gibbs sampling

Weizhou Wang, Jonathan Weare, Aaron R. Dinner

AI总结本文提出了一种名为GG-PA的训练-free框架，用于在科学采样中结合预训练扩散模型与显式物理背景。该方法通过在扩展状态空间中对联合目标分布进行推理，将学习到的局部先验与物理约束进行组合，并基于吉布斯采样实现精确的分布推断。实验表明，GG-PA能够在无需重新训练的情况下，利用部分先验恢复由物理背景引起的分布变化和系统中的集体行为，展示了其在结合生成模型与物理知识方面的有效性。

Comments 31 pages, 11 figures

2605.10641 2026-05-12 cs.CV cs.AI

LLaVA-CKD: Bottom-Up Cascaded Knowledge Distillation for Vision-Language Models

Nikolaos Gkalelis, Vasileios Mezaris

AI总结本文提出了一种名为LLaVA-CKD的自底向上级联知识蒸馏框架，旨在解决视觉语言模型（VLMs）在实际部署中面临的大规模计算和内存需求问题。该方法通过引入中间容量的教师模型逐步引导学生模型学习，缓解了传统知识蒸馏中师生模型容量差距过大导致的知识迁移效果下降问题。实验表明，该框架在多个标准视觉问答基准测试中取得了当前最优的性能。

Comments Under review

2605.10640 2026-05-12 cs.CL cs.AI

Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm

Haoyu Wang, Yifan Shang, Zhongxiang Sun, Weijie Yu, Xiao Zhang, Jun Xu

AI总结本文研究了语言模型在持续预训练过程中如何持续获取和保留事实知识的问题，提出了一个基于单层Transformer的理论框架，用于解释持续事实知识获取（cFKA）的训练动态。研究发现，基于正则化的方法仅影响参数收敛速度，而数据回放方法能够改变收敛动态并稳定已有知识。基于此，作者提出了一种新的生成式数据回放方法STOC，通过选择注意力贡献度高的事实片段来指导回放数据生成，实验表明该方法有效提升了模型的持续知识获取能力。

Comments Accepted by ICML 2026

2605.10639 2026-05-12 cs.AI

Navigating the Sea of LLM Evaluation: Investigating Bias in Toxicity Benchmarks

Regina Gugg, Selina Niederländer, Andreas Stöckl, Martin Flechl

AI总结随着大型语言模型（LLM）在科研和工业中的广泛应用，如何安全部署成为关键挑战，而现有的毒性基准评估体系存在系统性偏差的问题。本文研究了常用评估设置的鲁棒性，揭示了在模型选择、评估指标和任务类型等方面存在的内在偏差，并通过实验发现，当任务从文本生成转向摘要生成时，基准对有害内容的标记倾向显著增加，部分基准在输入数据域变化时也表现出行为不一致。研究强调了构建更全面和稳健的安全评估框架的必要性。

Comments 18 pages, 4 figures

2605.10634 2026-05-12 cs.AI

Teacher-Aware Evolution of Heuristic Programs from Learned Optimization Policies

Minyu Chen, Song Qin, Ling-I Wu, Jianxin Xue, Guoqiang Li

AI总结该研究提出了一种基于“教师感知”的进化框架，用于从学习到的优化策略中演化启发式程序。不同于以往依赖最终性能指标的方法，该方法利用独立训练的优化策略作为行为教师，通过查询其在候选启发式程序访问状态下的动作偏好，提供局部反馈以指导演化过程。实验表明，该方法在调度、路径规划和图优化等任务中优于仅依赖性能驱动的LLM启发式演化方法，且部署时无需神经推理，展示了其高效性和实用性。

Comments 15 pages

2605.10633 2026-05-12 cs.CL cs.AI

Intrinsic Guardrails: How Semantic Geometry of Personality Interacts with Emergent Misalignment in LLMs

Krishak Aneja, Manas Mittal, Anmol Goel, Ponnurangam Kumaraguru, Vamshi Krishna Bonagiri

AI总结该研究探讨了大型语言模型（LLMs）在微调过程中出现的有害行为（即“涌现偏差”）与其内在人格语义结构之间的关系。通过映射模型的潜在人格空间，如大五人格、黑暗三联征等，研究发现模型的人格语义几何结构在对齐模型及其微调变体中高度稳定。研究引入了“语义价值向量”等概念，证明这些人格相关方向可作为内在防护机制，有效抑制微调带来的偏差，为跨分布的模型调节提供了新的思路。

Comments 20 pages, 9 figures including appendix

2605.10629 2026-05-12 cs.CV

Product-of-Gaussian-Mixture Diffusion Models for Joint Nonlinear MRI Reconstruction

Laurenz Nagler, Martin Zach, Thomas Pock

AI总结本文提出了一种基于高斯混合乘积扩散模型的联合非线性磁共振成像重建方法，旨在解决现有方法中网络结构复杂、时间条件机制不透明以及需要离线估计线圈灵敏度等问题。该方法通过将参数高效的高斯混合扩散模型作为图像先验，并结合经典的线圈灵敏度平滑先验，实现了图像与线圈灵敏度的联合重建。该方法在保持重建质量的同时，提升了对对比度和解剖分布变化以及不同k空间轨迹的鲁棒性。

2605.10628 2026-05-12 cs.CV

Hypergraph-Enhanced Training-Free and Language-Free Few-Shot Anomaly Detection

Guohuan Xie, Xin He, Dingying Fan, Siqi Li, Yun Liu

AI总结本文提出了一种名为HyperFSAD的少样本异常检测框架，该方法无需训练和语言提示，且具备跨领域鲁棒性，有效解决了现有方法对特定任务训练、语言监督和领域适应性的依赖问题。该方法基于DINOv3和超图推理机制，通过稀疏超匹配和双分支图像评分策略，实现了对正常样本的紧凑表征与异常区域的精准识别。实验表明，在六个涵盖工业和医疗场景的数据集上，HyperFSAD在无训练、无语言提示的严格设置下取得了当前最优的检测性能。

2605.10627 2026-05-12 cs.CL cs.AI

Interpretable Coreference Resolution Evaluation Using Explicit Semantics

Bruno Gatti, Giuliano Martinelli, Roberto Navigli

AI总结该论文提出了一种基于显式语义的可解释核心ference解析评估框架，旨在解决传统统计指标（如CoNLL-F1）在诊断模型问题时信息不足的问题。研究通过将概念和命名实体识别（CNER）叠加到核心ference输出上，为名词提及分配语义标签并传播至整个聚类，从而按语义类别计算分类型评估指标。实验表明，该方法能够揭示传统指标难以发现的系统性缺陷，并可用于设计针对性的数据增强策略，提升模型在领域外任务中的表现。

Comments Accepted at main conference for ACL 2026. 19 pages

2605.10624 2026-05-12 cs.AI cs.LG

Hierarchical Causal Abduction: A Foundation Framework for Explainable Model Predictive Control

Ramesh Arvind Naagarajan, Zühal Wagner, Stefan Streif

AI总结本文提出了一种名为分层因果归纳（HCA）的基础框架，用于实现可解释的模型预测控制（MPC）。该方法结合领域知识图谱、KKT乘子优化证据和PCMCI算法进行时间因果发现，从而为非线性MPC的控制动作生成可信且易于人类理解的解释。实验表明，HCA在多个控制应用中显著提升了解释准确性，并且其方法具有跨领域泛化能力，适用于其他基于预测的决策系统。

2605.10621 2026-05-12 cs.LG cs.SY eess.SY

Hierarchical End-to-End Taylor Bounds for Complete Neural Network Verification

Taha Entesari, Mahyar Fazlyab

AI总结该论文研究了神经网络的可达性分析问题，旨在计算或界定给定输入域下网络输出的可能范围，以验证学习驱动的物理系统的安全性与鲁棒性。现有方法多依赖于二阶信息的可追踪近似，而本文提出了一种新的验证框架HiTaB，通过利用Hessian矩阵及其Lipschitz常数，系统性地引入更高阶的平滑性信息，构建了统一的零阶、一阶和二阶界框架，并提出了高效的层间曲率传播算法来计算深层网络中Hessian Lipschitz常数的上界，从而获得更紧致和可靠的安全性证明。

2605.10616 2026-05-12 cs.LG cs.CL cs.CV

MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

Alan Arazi, Eilam Shapira, Shoham Grunblat, Mor Ventura, Elad Hoffer, Gioia Blayer, David Holzmüller, Lennart Purucker, Gaël Varoquaux, Frank Hutter, Roi Reichart

AI总结本文提出 MulTaBench，一个包含40个数据集的多模态表格学习基准，涵盖图像-表格和文本-表格任务，旨在评估模型在处理结构化数据与非结构化模态（如文本和图像）结合时的表现。研究发现，针对任务进行嵌入调优能显著提升性能，而现有基准往往忽视任务相关性，导致结果波动较大。MulTaBench 通过强调模态间互补信息的重要性，推动了目标感知表示学习的发展，并为构建多模态表格基础模型提供了新的研究方向。

2605.10615 2026-05-12 cs.CL

Responsible Benchmarking of Fairness for Automatic Speech Recognition

Felix Herron, Ange Richard, François Portet, Alexandre Allauzen, Solange Rossato

AI总结本文探讨了自动语音识别（ASR）系统在不同说话人群体间的公平性问题，指出当前研究在评估公平性时方法不一致，可能导致结论偏差。作者结合机器学习公平性、社会学和语音科学的文献，提出了更可靠的公平性基准测试实践，强调应明确评估的公平性假设，并针对具体假设选择合适的度量指标。研究发现，仅基于单一异质群体进行评估可能掩盖实际受到偏见的群体，因此主张对数据中的多维人口统计变量进行细致的交叉分析，以揭示潜在的虚假关联。