arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2512.12602 2026-05-11 cs.LG

Exact Flow Linear Attention: Exact Solution from Continuous-Time Dynamics

Jingdi Lei, Di Zhang, Soujanya Poria

AI总结本文提出了一种名为Exact Flow Linear Attention（EFLA）的精确流线性注意力机制，通过将传统的delta-rule线性注意力中的欧拉离散更新替换为精确的闭式解，消除了离散化误差。该方法利用动态矩阵的秩-1结构，实现了参数数量、线性时间复杂度和块并行性的保持，同时提升了模型在噪声输入和高能量输入下的稳定性。实验表明，EFLA在多个基准测试中表现出更强的鲁棒性和性能，优于传统的状态空间模型和欧拉风格基线方法。

Comments 16 pages, 5 figures

2512.09629 2026-05-11 cs.AI cs.LG

End-to-end PDDL Planning with Hardcoded and Dynamic Agents

Emanuele La Malfa, Ping Zhu, Samuele Marro, Sara Bernardini, Michael Wooldridge

AI总结本文提出了一种端到端的规划框架，该框架结合验证器支持，能够将自然语言的人类指令转化为PDDL规划模型。框架中包含两类代理：基于日志和错误痕迹的硬编码代理，用于解决语法错误和时间约束等问题；以及能够适应具体领域并修订潜在规划抽象的动态代理。该框架无需人工干预，由大型语言模型驱动，已在多个经典规划问题和基准测试中展现出良好的灵活性和有效性。

Comments Code: https://github.com/EmanueleLM/MultiAgentPlanning

2512.03479 2026-05-11 cs.CV

ProcObject-10K: Benchmarking Object-Centric Procedural Understanding in Instructional Videos

Wenliang Guo, Yu Kong

AI总结该研究提出了 ProcObject-10K，首个用于评估指令视频中物体中心过程理解的基准，旨在解决现有基准过于关注动作而忽视物体状态演变的问题。该基准包含10,522个开放问答对，涵盖9个领域、137项任务，评估模型在预条件、状态演化、反事实推理等方面的能力。实验表明，现有主流模型在生成合理答案的同时，难以准确定位支持证据，暴露其依赖语言先验而非细粒度物体动态的缺陷。研究还提供了基于物体中心的监督微调方法，有效提升了模型在本任务及其他相关任务上的表现。

2512.02991 2026-05-11 cs.CV

GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection

Md Sohag Mia, Md Nahid Hasan, Muhammad Abdullah Adnan

AI总结 GraphFusion3D 是一种用于三维目标检测的统一框架，旨在解决点云数据稀疏、结构不完整和语义信息有限等挑战。该方法引入了自适应跨模态变换器（ACMT）和图推理模块（GRM），分别用于融合图像信息和建模点云中的局部几何与全局语义关系，从而提升检测性能。实验表明，GraphFusion3D 在多个基准数据集上取得了显著的性能提升。

2512.00164 2026-05-11 cs.LG cs.PL

Faster Verified Explanations for Neural Networks

Alessandro De Palma, Greta Dolcetti, Caterina Urban

AI总结本文提出了一种名为 FaVeX 的新算法，用于加速神经网络的验证解释计算。该方法通过动态结合批量和顺序处理输入特征，并复用之前查询的信息，显著提升了计算效率。此外，作者还提出了一个层次化的验证解释定义——验证器最优鲁棒解释，考虑了网络验证器的不完整性。实验表明，FaVeX 和该解释方法在大规模非线性激活网络上具有优越的可扩展性，能够生成有意义的形式化解释。

Comments ECOOP 2026

2511.06571 2026-05-11 cs.CL cs.AI cs.LG

Rep2Text: Decoding Full Text from a Single LLM Token Representation

Haiyan Zhao, Zirui He, Yiming Tang, Fan Yang, Ali Payani, Dianbo Liu, Mengnan Du

AI总结本研究探讨了从大型语言模型（LLM）最后一个token的表示中恢复原始输入文本的可能性，提出了一种名为Rep2Text的新框架。该方法通过一个可训练的适配器，将目标模型的最后一个token表示映射到解码语言模型的token嵌入空间，从而自回归地重建输入文本。实验表明，对于16个token的序列，平均能恢复约一半的token且保持语义连贯性，同时揭示了随着序列长度增加，token级恢复能力下降但语义信息仍较完整的信息瓶颈效应。

Comments 18 pages, 6 figures, 6 tables

2510.19669 2026-05-11 cs.CL

DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference

Xiang Liu, Xuming Hu, Xiaowen Chu, Eunsol Choi

AI总结近期研究表明，大型语言模型在推理任务中虽然表现出色，但往往生成冗长的思考过程，影响推理效率。本文提出DiffAdapt，一种基于问题难度和推理熵值动态调整推理策略的轻量框架，通过选择不同复杂度的推理模式，在保证准确率的同时显著减少生成的token数量。实验表明，该方法在多个模型和基准上有效降低了计算开销，最高减少达22.4%的token使用量。

Comments ICLR 26

2510.07625 2026-05-11 cs.RO cs.SY eess.SY

GATO: GPU-Accelerated and Batched Trajectory Optimization for Scalable Edge Model Predictive Control

Alexander Du, Emre Adabag, Gabriel Bravo-Palacios, Brian Plancher

AI总结该论文提出了一种名为GATO的批处理轨迹优化求解器，旨在提升边缘设备上模型预测控制（MPC）的实时性能。GATO通过算法、软件与硬件的协同设计，在GPU上实现了针对中等规模批处理任务的高效并行计算，有效解决了现有方法在实时性与通用性之间的权衡问题。实验表明，GATO在多个基准测试和实际案例中均表现出显著的加速效果与控制性能提升。

Comments Accepted to ICRA 2026. 8 pages, 8 figures, 2 tables

2510.04839 2026-05-11 cs.RO

TAG-K: Tail-Averaged Greedy Kaczmarz for Computationally Efficient and Performant Online Inertial Parameter Estimation

Shuo Sha, Anupam Bhakta, Zhenyuan Jiang, Kevin Qiu, Ishaan Mahajan, Gabriel Bravo-Palacios, Brian Plancher

AI总结本文提出了一种名为 TAG-K 的在线惯性参数估计方法，旨在解决传统方法在动态环境中跟踪参数突变困难以及计算开销大的问题。TAG-K 是 Kaczmarz 方法的轻量级扩展，结合了贪婪行选择以加速收敛，并引入尾部平均策略以提高噪声和不一致性下的鲁棒性。实验表明，TAG-K 在多种基准和四旋翼跟踪任务中相比其他方法具有更高的计算效率和更优的估计精度，显著提升了系统的整体跟踪性能。

Comments Accepted to ICRA 2026. 3 Figures. 3 Tables

2510.04606 2026-05-11 cs.LG stat.ML

Closed-Form Last Layer Optimization

Alexandre Galashov, Nathaël Da Costa, Liyuan Xu, Philipp Hennig, Arthur Gretton

AI总结本文研究了在平方损失下神经网络最后一层权重的闭式优化方法。作者提出在优化过程中将最后一层视为主干网络参数的函数，仅对主干参数进行优化，从而等价于交替进行主干网络的梯度下降和最后一层的闭式更新。该方法在随机梯度下降框架下进行了改进，并通过理论分析证明了其在神经切线核 regime 下的收敛性，实验表明该方法在多个回归任务中优于标准 SGD 和 Adam。

2510.03245 2026-05-11 cs.LG cs.AI cs.CV

Frequency-Aware Model Parameter Explorer: A new attribution method for improving explainability

Ali Yavari, Alireza Mohamadi, Elham Beydaghi, Philipp Seeböck, Rainer A. Leitgeb

AI总结现有归因方法在生成对抗样本时通常使用全通滤波器，忽略了对深度神经网络特征归因至关重要的高频信息。本文提出了一种新的归因方法FAMPE，通过基于FFT的α加权扰动策略，分别调节高低频成分，并将频率感知的探索直接融入模型参数分析中，从而更精确地揭示模型依赖的频域特征。实验表明，FAMPE在多个架构上显著优于现有方法，尤其在低频主导的图像中，高频扰动能有效提升归因精度。

Comments Preprint

详情

英文摘要

State-of-the-art attribution methods rely on adversarial sample generation that applies an all-pass filter across the frequency spectrum, discarding fine-grained high-frequency information that is demonstrably important for accurate feature attribution in deep neural networks. By generating adversarial samples that selectively perturb high- and low-frequency components, we can probe which spectral features a model relies on most -- directly translating frequency-domain exploration into attribution signals. Building on this insight, we propose FAMPE (Frequency-Aware Model Parameter Explorer), a novel attribution method that introduces an FFT-based α-weighted perturbation scheme -- separately modulating high- and low-frequency components via an energy-driven spectral cutoff -- and, crucially, integrates this frequency-aware exploration directly into model parameter exploration for attribution, a connection that has not been established in prior work. Unlike prior frequency-aware adversarial approaches that target transferability or imperceptibility, FAMPE's specific formulation is designed and validated exclusively for explainability, translating spectral structure into fine-grained attribution maps without requiring any manual baseline selection. Evaluated on ImageNet across four architectures spanning CNNs and Vision Transformers, at fixed α= 0.1 FAMPE outperforms AttEXplore by 4.25% on Inception-v3 and 12.04% on MaxViT-T, with per-sample oracle selection further revealing that low-frequency-dominated images systematically benefit from high-frequency perturbations -- underscoring the potential of adaptive spectral exploration. Our ablation studies confirm that high-frequency perturbations are disproportionately responsible for attribution precision, while excessive low-frequency noise degrades global structural coherence.

URL PDF HTML ☆

赞 0 踩 0

2510.01685 2026-05-11 cs.CL cs.AI

How Do Language Models Compose Functions?

Apoorv Khandelwal, Ellie Pavlick

AI总结本文研究了大型语言模型（LLMs）在解决需要函数组合的两跳事实检索任务时的内部机制。作者发现，尽管现代LLMs在任务表现上有所提升，但它们仍然存在“组合性鸿沟”，即能够分别计算 $f(x)$ 和 $g(z)$ 并不意味着能正确组合计算 $g(f(x))$。通过分析残差流表示，研究识别出两种处理机制：一种是通过逐步计算 $f(x)$ 来实现组合求解，另一种则是直接跳过中间变量 $f(x)$ 直接得到结果。实验还表明，嵌入空间的几何结构与所采用的机制密切相关，其中直接机制在任务表示为从 $x$ 到 $g(f(x))$ 的嵌入空间翻译时占主导。

2510.01510 2026-05-11 cs.LG

Flock: A Knowledge Graph Foundation Model via Learning on Random Walks

Jinwoo Kim, Xingyue Huang, Krzysztof Olejniczak, Kyungbin Min, Michael Bronstein, Seunghoon Hong, İsmail İlkan Ceylan

AI总结本文研究了知识图谱中的零样本链接预测问题，即模型需能推广到新实体和新关系。为解决传统知识图谱基础模型在区分结构相似但语义不同的关系时表达能力受限的问题，作者提出了一种基于概率节点-关系等变性的新方法，通过结构化随机性打破推理时的对称性。基于此，他们提出了Flock模型，该模型通过迭代采样随机游走、编码序列并聚合节点与关系表示，实现了对知识图谱链接级函数的通用逼近，在多个基准数据集上取得了优越的性能。

Comments 42 pages, 7 figures

2510.01105 2026-05-11 cs.LG

Geometric Analysis of Neural Regression Collapse via Intrinsic Dimension

George Andriopoulos, Zixuan Dong, Bimarsha Adhikari, Keith Ross

AI总结该研究分析了神经回归模型中特征表示的几何特性，揭示了回归任务中“神经崩溃”现象对性能的负面影响。通过引入内在维度的概念，研究发现崩溃模型的特征空间维度低于目标空间维度，导致过度压缩和泛化能力下降，而非崩溃模型则通常保持特征空间维度高于目标空间。基于此，研究提出了两种不同的压缩状态，为提升回归模型的泛化性能提供了新的几何视角和实用策略。

Comments 36 pages, 21 figures

2510.00568 2026-05-11 cs.CL

ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards

Shiyu Li, Yang Tang, Yifan Wang, Peiming Li, Xi Chen

AI总结 ReSeek 是一种用于训练搜索代理的自纠正框架，旨在解决基于强化学习的搜索代理在面对复杂任务时易陷入错误推理路径的问题。该框架引入了自纠正机制，使代理能够在搜索过程中动态识别并恢复错误路径，并通过一个特殊的 JUDGE 动作进行信息判断和策略重规划。此外，研究还设计了一种密集的指导性奖励函数，并提出了新的基准测试 FictionalHot，实验表明 ReSeek 显著提升了搜索代理的任务成功率和路径可信度。

Comments ICML 2026

2510.00253 2026-05-11 cs.LG

DReS: Dual Reconstruction Smoothing for Functional Regularization

Parsa Moradi, Tayyebeh Jahaninezhad, Hanzaleh Akbarinodehi, Mohammad Ali Maddah-Ali

AI总结本文提出了一种名为 DReS 的非参数正则化框架，通过基于样条的辅助分支引入平滑性，无需额外可训练参数，适用于监督、半监督和自监督学习场景。该方法通过共享模型参数实现函数近似，理论分析表明其能控制目标函数与其近似之间的差异，具有隐式的高阶平滑正则化效果。实验表明，DReS 在表示学习、生成建模和监督学习中均表现出色。

2509.26524 2026-05-11 cs.LG cs.AI

TAP: Two-Stage Adaptive Personalization of Multi-Task and Multi-Modal Foundation Models in Federated Learning

Seohyun Lee, Wenzhi Fang, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher G. Brinton

AI总结在联邦学习中，如何在数据、任务和模态均存在异构性的客户端上对基础模型进行个性化微调仍是一个未被充分研究的问题。为此，本文提出了一种两阶段自适应个性化方法TAP，第一阶段通过利用客户端与服务器之间的模型架构差异，选择性地替换参数以减少跨任务和跨模态的干扰，第二阶段则在全局模型稳定后进行后处理蒸馏，以恢复有益的共享结构，从而在提升泛化能力的同时保持个性化。该方法首次分析了在模态-任务对异构性下的联邦基础模型训练收敛性，并通过大量实验验证了其有效性。

Comments 29 pages

2509.26272 2026-05-11 cs.CV cs.LG

PRPO: Paragraph-level Policy Optimization for Vision-Language Deepfake Detection

Tuan Nguyen, Naseem Khan, Khang Tran, NhatHai Phan, Issa Khalil

AI总结随着合成媒体的快速发展，深度伪造检测成为保障网络安全和信任的重要挑战。为解决现有数据不足及大语言模型在检测任务中推理与视觉证据不一致的问题，本文提出了一种基于段落级相对策略优化（PRPO）的强化学习方法，并构建了一个包含推理注释的深度伪造检测数据集。实验表明，PRPO显著提升了检测准确率和推理评分，验证了其在提升模型可解释性和可靠性方面的有效性。

Comments Accepted at ICML 2026

2509.23370 2026-05-11 cs.CV

GRAPE: Let GRPO Supervise Query Rewriting by Ranking for Retrieval

Zhaohua Zhang, Jianhuan Zhuo, Muxi Chen, Chenchen Zhao, Wenyu Jiang, Tianwen Jiang, Mingyang Chen, Yutang, Qiuyong Xiao, Jihong Zhang, Zhixun Su

AI总结本文提出了一种名为GRAPE的插件式方法，旨在通过基于排序的策略优化来提升查询重写的效果，从而改善大规模检索系统在多语言、长文本和多模态查询下的性能。该方法利用大型语言模型进行查询重写，并通过分组相对策略优化（GRPO）将排名信号融入重写过程，使重写后的查询更贴合冻结检索器的潜在分布。实验表明，GRAPE在多个基准数据集上显著提升了检索效果，平均提升了4.9%的Recall@10指标，且无需对原始检索器进行任何修改。

2509.08089 2026-05-11 cs.LG cs.CR

Hammer and Anvil: Toward a Theory of Backdoors in Federated Learning

Lucas Fenaux, Zheng Wang, Jacob Yan, Nathan Chung, Florian Kerschbaum

AI总结本文提出了一种名为“Hammer and Anvil”的理论框架，用于分析联邦学习中的后门攻击问题。该框架根据恶意客户端更新与平均更新之间的偏差 $δ$ 对后门进行分类，并提出了两类核心防御方法：针对大偏差攻击的“Type 1（Anvil）”防御，如异常检测和鲁棒聚合；以及针对小偏差攻击的“Type 2（Hammer）”防御，如基于移除的策略。研究进一步表明，单一类型的防御或非原理性的组合防御容易被自适应攻击者利用，而将两类防御原理性地结合后，能够有效抵御最坏情况下的全信息自适应攻击，并在多个数据集和场景中表现出优越的鲁棒性。

2509.03736 2026-05-11 cs.AI cs.CL cs.LG

Are LLM Agents Behaviorally Coherent? Latent Profiles for Social Simulation

James Mooney, Josef Woldense, Zheng Robert Jia, Shirley Anugrah Hayati, My Ha Nguyen, Vipul Raheja, Dongyeop Kang

AI总结本文探讨了大型语言模型（LLM）代理在行为上是否具有内在一致性，特别是在不同实验条件下是否与人类行为模型保持一致。研究设计了一种方法，通过提问揭示代理的潜在特征，并在多代理对话环境中评估其行为一致性。结果表明，不同模型家族和规模的LLM在行为一致性方面存在显著差异，尽管它们生成的回应可能与人类相似，但无法在实验设置中保持经验一致性，这表明它们在替代真实受试者方面仍存在关键缺陷。

Comments 25 pages, 9 figures, 7 tables

2509.00338 2026-05-11 cs.LG cs.AI

Scalable Option Learning in High-Throughput Environments

Mikael Henaff, Scott Fujimoto, Michael Matthews, Michael Rabbat

AI总结本文研究了如何在高吞吐量环境中实现可扩展的分层强化学习。作者提出了一个名为Scalable Option Learning (SOL)的算法，显著提升了分层强化学习的训练效率，其吞吐量比现有方法高出约35倍。通过在NetHack等复杂环境中进行大规模训练，SOL展示了优越的性能和可扩展性，并在多个基准任务中验证了其广泛适用性。

2508.15989 2026-05-11 cs.LG cs.ET

Scalable Equilibrium Propagation via Intermediate Error Signals for Deep Convolutional CRNNs

Jiaqi Lin, Malyaban Bal, Abhronil Sengupta

AI总结本文提出了一种可扩展的均衡传播（EP）框架，用于深度卷积循环神经网络（CRNNs），通过引入中间层的误差信号来解决深度网络中的梯度消失问题。该方法结合了知识蒸馏与局部误差信号，增强了神经元动态的收敛性，首次实现了在深层架构中的有效训练。实验表明，该方法在CIFAR-10和CIFAR-100数据集上取得了 state-of-the-art 的性能，展示了其在深层VGG架构上的可扩展性，为EP在更复杂网络中的应用提供了新方向。

2508.05803 2026-05-11 cs.CL

Human-like fleeting memory improves language learning but impairs reading time prediction in transformer language models

Abishek Thamma, Micha Heilbron

AI总结本研究探讨了短暂记忆对语言学习和阅读时间预测的影响，发现赋予Transformer语言模型短暂记忆机制能够提升其语言建模和句法表现，但会损害其基于惊讶度预测人类阅读时间的能力。这一结果支持了人类记忆限制可能有助于语言学习的观点，同时揭示了神经网络语言模型在语言学习与行为预测之间的性能差异。

Comments Revised after peer review. Accepted for publication in Transactions of the Association for Computational Linguistics

2508.05773 2026-05-11 cs.RO cs.SY eess.SY

GPU-Accelerated Barrier-Rate Guided MPPI Control for Tractor-Trailer Systems

Keyvan Majd, Hardik Parwana, Bardh Hoxha, Steven Hong, Hideki Okamoto, Georgios Fainekos

AI总结本文研究了如何利用屏障速率引导的模型预测路径积分（BR-MPPI）控制方法，提高牵引挂车等 articulated 车辆在复杂环境中（如停车场）的导航能力。该方法将控制屏障函数（CBF）约束直接嵌入路径积分更新过程，引导重要性采样分布向无碰撞且动力学可行的轨迹集中，从而提升路径探索能力和轨迹鲁棒性。实验表明，该方法在单块 GPU 上实现了超过 100 Hz 的实时控制频率，并在多个障碍物场景下表现出更优的停车避障性能。

Comments Accepted to IEEE ITSC 2025

2508.04056 2026-05-11 cs.RO q-bio.QM

SCOUT: Closed-Loop in-vivo System for Continuous Methane Concentration Monitoring in Cattle

Yuelin Deng, Hinayah Rojas de Oliveira, Richard M. Voyles, Upinder Kaur

AI总结该研究提出了一种名为SCOUT的闭环在体监测系统，用于持续测量牛瘤胃内甲烷浓度，解决了现有方法在准确性和操作可行性之间的矛盾。SCOUT通过闭环气体循环维持瘤胃厌氧环境，实现了高时间分辨率的甲烷浓度监测，揭示了与动物行为变化相关的快速浓度波动。该系统为建立浓度与排放量之间的模型提供了可靠的数据基础，有助于精准表型分析、排放代理校准和减排策略评估。

2508.02129 2026-05-11 cs.CV

VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling

Yuru Xiao, Zihan Lin, Chao Lu, Deming Zhai, Kui Jiang, Wenbo Zhao, Wei Zhang, Junjun Jiang, Huanran Wang, Xianming Liu

AI总结本文提出了一种名为VDEGaussian的视频扩散增强4D高斯点绘框架，用于动态城市场景的建模。该方法通过在测试时适配的视频扩散模型中提取鲁棒的时序一致先验，有效解决了现有方法在处理快速移动物体和时间不连续性时的局限性。研究引入了时间戳联合优化策略和不确定性蒸馏方法，显著提升了动态场景的重建质量与新视角合成效果，尤其在快速运动物体的建模上表现出明显优势。

2508.01248 2026-05-11 cs.CV

NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection

Jiazhen Yan, Fan Wang, Weiwei Jiang, Ziqiang Li, Zhangjie Fu

AI总结随着生成模型（如GAN和扩散模型）的快速发展，生成高度逼真的图像引发了在安全敏感领域中被滥用的担忧。现有检测方法在已知生成模型下表现良好，但在面对未知模型时泛化能力不足，尤其当真实图像与生成图像语义内容相近时。本文提出NS-Net，通过NULL-Space投影解耦CLIP视觉特征中的高层语义信息，并结合对比学习捕捉真实与生成图像的分布差异，从而提升检测性能；实验表明，NS-Net在包含40种生成模型的开放世界基准测试中显著优于现有方法，检测准确率提升7.4%。

2506.23875 2026-05-11 cs.LG cs.AI

Discovering Learning-Friendly Generation Orders for Sequential Computation

Yuta Sato, Kazuhiko Kawamoto, Hiroshi Kera

AI总结该研究旨在自动发现适用于序列生成任务的学习友好状态生成顺序，以提高训练成功率。核心方法通过“损失分析”评估候选顺序在训练初期的损失下降速度，并结合分层搜索策略高效探索大规模候选空间。实验表明，该方法在多个任务中显著提升了生成顺序的有效性，甚至在某些任务中达到了接近100%的成功率，并重现了先前研究中发现的有效顺序。

Comments 10+24 pages, 10 figures

2506.14951 2026-05-11 cs.LG cs.AI cs.NE

Flat Channels to Infinity in Neural Loss Landscapes

Flavio Martinelli, Alexander Van Meegen, Berfin Şimşek, Wulfram Gerstner, Johanni Brea

AI总结本文研究了神经网络损失景观中一种特殊的结构：存在某些通道，沿着这些通道损失下降极慢，同时至少两个神经元的输出权重趋于正负无穷，其输入权重向量趋于相等。最终这两个神经元实现了一个门控线性单元，表现出独特的计算特性。该研究揭示了梯度下降等优化方法在回归任务中容易收敛到这些看似平坦的区域，并从几何、梯度动力学和功能角度全面刻画了这些区域的特性。

Comments Accepted to NeurIPS'25 (fixed resolution of equations in figs.1,2,3)