arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08647 2026-05-12 cs.CL cs.AI cs.LG

AgentCollabBench: Diagnosing When Good Agents Make Bad Collaborators

Aritra Mazumder, Shubhashis Roy Dipta, Nusrat Jahan Lia, Tanzila Khan, Kainat Raisa Hossain, Nehaa Shri, Shubhrangshu Debsarkar, Humayra Tasnim, Gour Gupal Talukder Shawon, Debjoty Mitra, Sumaiya Ahmed Rani, Al Jami Islam Anik, Al Nafeu Khan

AI总结 AgentCollabBench 是一个用于诊断优秀智能体为何可能成为不良协作伙伴的基准测试平台，旨在揭示多智能体系统中潜在的推理链失效问题。该研究通过构建包含900个人工验证任务的基准，评估了四种现代大语言模型在指令衰减、虚假信念传播、上下文泄露和追踪数据持久性等方面的脆弱性，并发现通信拓扑结构是影响多跳信息传递可靠性的关键因素。研究指出，多智能体系统的可靠性本质上是结构问题，仅提升模型能力不足以保障协作安全。

2605.08646 2026-05-12 cs.LG cs.CL cs.DC

PAAC: Privacy-Aware Agentic Device-Cloud Collaboration

Liangqi Yuan, Wenzhi Fang, Shiqiang Wang, Christopher G. Brinton

AI总结 PAAC 是一种隐私感知的智能体设备-云协作框架，旨在解决大型语言模型代理在隐私保护与推理能力之间的矛盾。该方法通过将规划器-执行器分解与设备-云边界对齐，使角色分工本身成为隐私保护机制，从而在保证隐私的同时提升整体性能。实验表明，PAAC 在多个严格隐私设置的智能体基准测试中，显著优于现有方法，在准确率和隐私泄露控制方面均取得显著提升。

2605.08640 2026-05-12 cs.CV

FlowADMM: Plug-and-play ADMM with Flow-based Renoise-Denoise Priors

Hendrik Sommerhoff, Michael Moeller

AI总结本文提出了一种基于流模型的插件式ADMM算法FlowADMM，用于求解逆问题。该方法通过形式化流模型中的确定性重噪声-去噪操作，将这一操作整合到经典的ADMM框架中，从而提升了算法的收敛性与稳定性。实验表明，FlowADMM在去噪、去模糊、超分辨率和修复等任务中表现出色，且所需的图像一致性评估次数更少。

2605.08639 2026-05-12 cs.LG

ReLibra: Routing-Replay-Guided Load Balancing for MoE Training in Reinforcement Learning

Chao Jin, Xinming Wei, Yinmin Zhong, Chengxu Yang, Bingyang Wu, Ruidong Zhu, Zili Zhang, Yuliang Liu, Xin Jin

AI总结在强化学习中，大型语言模型的混合专家（MoE）训练面临严重的负载不平衡问题，尤其在微批次间专家热点频繁变化时更为明显。本文提出 ReLibra，一种基于路由重放机制的 MoE 负载均衡系统，利用强化学习中 rollout 和训练过程的一致性，在微批次粒度上实现细粒度负载均衡。ReLibra 在跨批次和微批次两个时间尺度上分别引入专家重排序和专家复制机制，有效提升了训练吞吐量，实验表明其性能优于现有方法。

2605.08638 2026-05-12 cs.RO cs.AI

Geometry Guided Self-Consistency for Physical AI

Yinwei Dai, Zhuofu Chen, Lijie Yang, Ravi Netravali

AI总结本文提出了一种名为KeyStone的推理时自一致性方法，用于改进基于扩散模型的物理AI动作生成。该方法通过并行生成多个候选动作片段，并在连续动作空间中进行聚类，最终选择最大聚类的中位点作为输出，无需额外训练或模型参数。KeyStone利用动作轨迹的几何结构，使欧氏距离直接反映物理相似性，从而实现高效且无需判别器的选择过程，显著提升了多种视觉-语言-动作模型和世界-动作模型的任务成功率。

2605.08636 2026-05-12 cs.CL

EdgeFlowerTune: Evaluating Federated LLM Fine-Tuning Under Realistic Edge System Constraints

Jiaxiang Geng, Yiyi Lu, Lunyu Zhao, Yan Gao, Nicholas D. Lane, Bing Luo

AI总结本文提出 EdgeFlowerTune，一个面向实际边缘设备约束的联邦大语言模型微调基准，旨在评估在真实边缘系统中进行联邦微调的可行性和性能。该基准综合考量模型质量与系统开销，包括通信、延迟、内存、能耗及对动态环境的鲁棒性，并引入三种互补的评估协议以全面比较不同方法的效果、效率与鲁棒性。实验表明，仅以准确率作为评估标准可能得出误导性结论，而 EdgeFlowerTune 为系统感知的边缘联邦微调研究提供了可复现的评估平台。

Comments 30 pages, 10 figures

2605.08635 2026-05-12 cs.CV

Kinematics-Driven Gaussian Shape Deformation for Blurry Monocular Dynamic Scenes

Yeon-Ji Song, Kiyoung Kwon, Junoh Lee, Jin-Hwa Kim, Byoung-Tak Zhang

AI总结本文研究了如何从模糊的单目视频中重建动态3D场景，针对运动模糊导致的几何信息混杂问题，提出了一种基于运动学的高斯形状变形框架Kinematics-GS。该方法通过将模糊视为与运动对齐的形变，并引入运动学先验对高斯形状进行参数化，从而在无需辅助运动监督的情况下有效避免形状退化。此外，该方法通过时间形变方差分解场景为动态和静态部分，并采用由粗到细的形变策略，提升了重建的稳定性和细节表现，实验表明其在真实场景中显著优于现有方法。

Comments 20 pages, 9 figures, 13 tables

2605.08632 2026-05-12 cs.CL cs.AI

PARD-2: Target-Aligned Parallel Draft Model for Dual-Mode Speculative Decoding

Zihao An, Taichi Liu, Ziqiong Liu, Dong Li, Ruofeng Liu, Emad Barsoum

AI总结本文提出了一种名为PARD-2的双模式推测解码框架，旨在提升大语言模型的推理速度。该方法通过重新设计草稿模型的优化目标，从关注单个token的预测准确率转向最大化连续token的接受长度，从而更贴合实际推理需求。PARD-2引入了置信度自适应token优化机制，使单个草稿模型能够同时支持目标依赖和目标独立两种模式，并在多个模型和任务中实现了最高达6.94倍的无损加速效果。

2605.08627 2026-05-12 cs.CV

DRNet: All-in-One Image Restoration via Prior-Guided Dynamic Reparameterization

Ao Li, Xiaoning Liu, Sheng Li, Yapeng Du, Zhen Long, Lei Luo, Le Zhang, Ce Zhu

AI总结本文提出了一种名为DRNet的全新图像修复框架，旨在通过单一模型处理多种退化问题。该方法引入了动态重参数化机制，结合任务特定调制器和连续小波变换编码器，有效解决了计算开销大、任务异构优化困难以及编码器设计低效等问题。实验表明，DRNet在五个修复任务中均达到最先进的性能，兼具参数效率和灵活应用能力，可作为盲修复基础模型或用户引导型专家模型使用。

Comments Accepted by IEEE TMM

2605.08625 2026-05-12 cs.LG cs.AI

Reasoning-Aware Training for Time Series Forecasting

Md Atik Ahamed, Mihir Parmar, Palash Goyal, Chun-Liang Li, Qiang Cheng, Tomas Pfister, Jinsung Yoon

AI总结时间序列基础模型（TSFMs）在数值预测方面表现出色，但缺乏定性推理能力，而直接应用大语言模型（LLMs）处理时间序列数据则面临模态差异的问题。为此，研究提出STRIDE框架，通过蒸馏嵌入的方式将LLM的推理能力注入TSFMs的连续嵌入空间，从而在保持数值预测性能的同时增强模型的可解释性。实验表明，STRIDE在多个基准测试中取得了领先的预测效果，并显著提升了模型在领域内和领域外的数值及推理表现。

2605.08618 2026-05-12 cs.CV cs.LG

Beyond Toy Benchmarks: A Systematic Evaluation of OOD Detection Methods For Plant Pathology Classification

Devesh Shah

AI总结该研究系统评估了六种越域检测方法在植物病理分类任务中的性能，关注真实场景下的分布偏移问题。通过在Plant Pathology 2021数据集上的实验发现，基于能量的微调方法在保持类别内准确率的同时显著提升了越域检测效果，其优势来源于嵌入空间重构和评分函数校准。研究还揭示了在中等规模数据集上应用约束优化方法时可能出现的训练不稳定性问题，为实际应用提供了重要参考。

2605.08616 2026-05-12 cs.LG

Robust Server Defense Against Unreliable Clients in One-Shot Fair Collaborative Machine Learning

Chia-Yuan Wu, Frank E. Curtis, Daniel P. Robinson

AI总结本文研究了一次性联邦学习中如何防御不可靠客户端对全局模型公平性的影响。为解决该问题，作者提出了一种基于双层优化的服务器端防御框架，通过学习客户端权重以减轻偏差数据的影响，并利用服务器端的小规模可信数据集来强制公平性约束。实验表明，该方法在保持模型精度的同时有效提升了公平性，且在不可靠客户端占多数的情况下仍具有良好的鲁棒性。

Comments Accepted at the 2nd International Conference on Federated Learning and Intelligent Computing Systems (FLICS 2026)

2605.08614 2026-05-12 cs.AI

DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules

Devin Yasith De Silva, Dhaval Patel, Christodoulos Constantinides, Shuxin Lin, Nianjun Zhou, Paul J Adams, Sal Rosato, Nicolas Constantinides, Deborah L. McGuinness, Jayant Kalagnanam

AI总结该研究提出了一种名为DiagnosticIQ的基准测试，用于评估基于大语言模型（LLM）的工业维护动作推荐能力，其核心问题是将专家制定的符号规则转化为具体的维护步骤。研究构建了一个包含6690个专家验证的多选题的基准，涵盖16类工业资产的118组规则-动作对，并引入了符号规则到多选题的标准化流程、五种不同故障模式的测试变体以及29个LLM和4个嵌入模型的性能对比。实验表明，当前最先进的模型在面对规则扰动和条件反转时仍存在显著性能下降，揭示了在实际部署中模型的鲁棒性和校准能力仍是关键挑战。

Comments 43 pages, 25 figures

2605.08613 2026-05-12 cs.AI cs.IT cs.MA math.IT

Generalization Bounds of Emergent Communications for Agentic AI Networking

Yong Xiao, Jingxuan Chai, Guangming Shi, Ping Zhang

AI总结本文研究了智能体网络（AgentNet）中涌现通信的泛化能力，旨在解决传统通信协议在6G网络中灵活性不足的问题。作者提出了一种基于信息论的新兴通信框架，通过联合优化决策函数与通信信号学习，实现了异构智能体间的协作任务求解。该方法建立在多智能体多任务分布式信息瓶颈理论基础上，提供了通信协议在未知环境状态下的理论泛化界，并通过硬件实验验证了其优越性。

Comments Accepted at IEEE ISIT Workshop, Guangzhou, China, June 2026

2605.08612 2026-05-12 cs.RO

ATAAT: Adaptive Threat-Aware Adversarial Tuning Framework against Backdoor Attacks on Vision-Language-Action Models

Kewei Chen, Yayu Long, Shuai Li, Mingsheng Shang

AI总结本文研究了针对视觉-语言-动作（VLA）模型的后门攻击问题，提出了一种自适应威胁感知的对抗调优框架ATAAT，以解决传统攻击方法在端到端训练中因梯度干扰导致的失效问题。该框架通过“威胁-方法自适应映射”机制，根据攻击者的能力智能选择最优的梯度解耦策略，显著提升了攻击的成功率与隐蔽性。实验表明，ATAAT在保持极低中毒率（5%）的情况下实现了高鲁棒性的目标攻击成功率（TASR > 80%），并在语义级触发和数据中毒场景中实现了首次隐式解耦攻击。

Comments Accepted to Findings of ACL 2026

2605.08611 2026-05-12 cs.AI

The Echo Amplifies the Knowledge: Somatic Marker Analogues in Language Models via Emotion Vector Re-Injection

Jared Glover

AI总结当前语言模型的记忆系统仅存储事件内容，而无法捕捉事件中的情感体验。本文通过在语言模型中引入情感向量再注入机制，模拟了大脑中情绪标记对决策的影响，从而弥补了语义记忆与情感记忆之间的差距。研究使用预训练的稀疏自编码器，识别出具有心理意义的情感特征，并在回忆过程中根据上下文相似性重新注入这些情感向量，显著提升了模型在情感导向任务和决策行为中的表现，验证了情感标记对知识应用的增强作用。

2605.08606 2026-05-12 cs.CV

Egocentric Whole-Body Human Mesh Recovery with Prior-Guided Learning

Soyeon Na, Seung Young Noh, Ju Yong Chang

AI总结本文研究了基于单目头戴式相机的自中心视角全身人体网格重建问题，针对现有方法缺乏精确的参数化人体模型标注以及难以恢复手部和面部等细节的问题，提出了一种基于先验引导的学习框架。该方法通过构建更准确的优化伪标注，并结合外部视角HMR基础模型与扩散姿态先验，提升了重建精度，同时引入确定性去畸变模块以处理鱼眼镜头失真。实验表明，该方法在多个自中心视角数据集上实现了优于现有方法的全身人体网格重建效果。

Comments Accepted to ICIP 2026. This is the author-formatted version of the paper

2605.08605 2026-05-12 cs.LG cs.AI cs.LO

Lattice Deduction Transformers

Liam Davis, Leopold Haller, Alberto Alfarano, Mark Santolucito

AI总结本文提出了一种名为“格推理变换器”（Lattice Deduction Transformer，LDT）的递归变压器模型，通过在前向传播之间将隐状态投影到格结构中，以近似逻辑上正确的推理过程。该模型在基于搜索的约束求解器中进行策略训练，并通过一种与领域无关的抽象解释方法对解集进行监督学习。实验表明，该模型在多个复杂推理任务中表现出色，如Sudoku-Extreme和Maze-Hard等，且在保证推理正确性的同时，训练成本显著低于现有小规模递归推理模型。

2605.08599 2026-05-12 cs.AI

What Will Happen Next: Large Models-Driven Deduction for Emergency Instances

Zhengqing Hu, Dong Chen, Junkun Yuan, Liang Liu, Hua Wang, Zhao Jin, Yingchaojie Feng, Wei Chen, Mingliang Xu

AI总结传统模拟方法通过预设方式重现已发生的紧急事件，以辅助风险评估和应急决策，但由于缺乏随机性和多样性，难以充分挖掘潜在风险。本文提出了一种基于大模型的“世界线发散系统”（WLDS），通过引入可控的随机性生成策略，结合事实校准和逻辑校准机制，实现了多领域紧急事件的多样化推演与可视化。该方法不仅提升了模拟的准确性与逻辑严谨性，还通过图文结合的可视化模块增强了可解释性，实验表明其在多个具体领域中能够高效生成高质量的紧急事件推演数据，为未来类似场景的决策提供有力支持。

2605.08592 2026-05-12 cs.CV

Cross-Modal RGB-D Fusion Transformer for 6D Pose Estimation of Non-Cooperative Spacecraft with Stereo-Derived Depth

Yongliang Zhen, Bo LÜ, Hang Yang, Xiaotian WU

AI总结本文研究了非合作航天器在轨六自由度位姿估计问题，针对单目方法存在的深度模糊和光照条件差等缺陷，提出了一种基于被动立体视觉的融合Transformer方法。该方法通过开发的TSCA-Stereo网络处理弱纹理、镜面反射和光照变化等空间图像特性，并引入跨模态融合Transformer将RGB图像与立体深度特征自适应结合，提高了位姿估计的鲁棒性。实验表明，该方法在专门构建的多模态数据集上表现优异，验证了其在复杂空间环境下的有效性与可靠性。

2605.08589 2026-05-12 cs.CV

S2FT: Parameter-Efficient Fine-Tuning in Sparse Spectrum Domain

Baoquan Zhang, Zhehao Yu, Lisai Zhang, Kenghong Lin, Tianran Chen, Yuxi Sun, Yunming Ye, Yao He

AI总结本文提出了一种名为S2FT的参数高效微调方法，通过在稀疏频域中进行微调，显著减少需要调整的参数数量。与现有方法假设权重变化具有稀疏频谱不同，作者发现其频谱分布更接近功率均匀分布，因此仅调整少量频谱系数不足以准确建模权重变化。为此，他们提出一种可逆变换，将具有稀疏频谱的潜在空间域矩阵映射到权重变化，并通过近邻搜索方法实现该变换，实验表明S2FT在仅使用0.08%训练参数的情况下取得了优越性能。

Comments Accepted by CVPR 2026

2605.08587 2026-05-12 cs.LG cs.AI

Kaczmarz Linear Attention

Jiaxuan Zou, Ruifeng Ren, Yong Liu

AI总结本文提出了一种名为Kaczmarz Linear Attention（KLA）的线性注意力机制，旨在解决长上下文语言建模中Transformer注意力的二次计算成本问题。该方法基于Gated DeltaNet（GDN）改进而来，通过引入从Kaczmarz投影方法推导出的动态步长系数，优化了状态更新过程，从而在保持线性计算复杂度的同时提升了模型性能。实验表明，KLA在多个任务上均优于GDN，包括更高的检索准确率、更强的关联召回能力和更快的解码速度，验证了其在长序列建模中的有效性与优越性。

2605.08585 2026-05-12 cs.CV cs.AI

PromptDx: Differentiable Prompt Tuning for Multimodal In-Context Alzheimer's Diagnosis

Lujia Zhong, Yihao Xia, Shuo Huang, Jianwei Zhang, Yonggang Shi

AI总结该研究提出了一种名为PromptDx的新型诊断框架，旨在通过类比推理实现阿尔茨海默病的多模态上下文诊断。其核心方法是引入可微提示调优（DPT）机制，将预训练的TabPFN模型与多模态表征进行无缝整合，解决了传统方法在处理异构多模态数据时存在的梯度断裂和先验不匹配问题。实验表明，该方法在ADNI数据集上表现出更高的诊断准确率，且仅需1%的上下文样本即可达到传统方法使用30%样本的效果，展示了其高效的数据利用能力。

2605.08583 2026-05-12 cs.CL

Source or It Didn't Happen: A Multi-Agent Framework for Citation Hallucination Detection

Mingzhe Li, Zhiqiang Lin, Shiqing Ma

AI总结本文研究了大型语言模型在科学写作中生成虚假引用的问题，提出了一种基于多智能体框架的引用幻觉检测方法。该方法构建了一个包含12类引用类型的分类体系，并开发了名为CiteTracer的检测系统，通过结构化提取、多源证据检索和分类专家判断等步骤，实现对引用真实性的精准识别。实验表明，该方法在合成数据集和真实数据集上均取得了高精度的检测效果。

2605.08581 2026-05-12 cs.LG

PRISM: Fast Online LLM Serving via Scheduling-Memory Co-design

Xingyu Qu, Tianhao Lin, Yiqi Li, Zhiyu Chen, Sheng Wang

AI总结现代在线大语言模型服务（如RAG和智能代理系统）中，用户请求常表现出提示分割和热点偏斜等特征，现有方法未能有效结合这两方面特性，导致热点片段重复预填充和首令牌延迟（TTFT）增加。为此，本文提出PRISM，通过调度与内存管理的协同设计，引入查询感知调度器（QAS）和需求感知基数树（DART），实现请求接纳与精确前缀键值缓存保留的对齐。实验表明，PRISM在多个模型上显著降低了TTFT并提升了缓存命中率。

Comments 25 pages, 9 figures, Preprint

2605.08578 2026-05-12 cs.LG cs.AI

Probing the Impact of Scale on Data-Efficient, Generalist Transformer World Models for Atari

Jooyeon Kim

AI总结本文研究了模型规模对数据高效通用Transformer世界模型在Atari环境中的影响。作者使用一个简化的Transformer世界模型，在固定离线数据集上分析了不同环境下的扩展行为，发现不同环境对模型规模的响应存在显著差异。研究还表明，联合训练能够稳定扩展动态，使所有环境在过参数化条件下均获得性能提升，并且模型保真度的提高可直接转化为下游控制任务的性能提升。

2605.08577 2026-05-12 cs.CV cs.LG

Improving Generative Adversarial Networks with Self-Distillation

Antoni Nowinowski, Krzysztof Krawiec

AI总结本文提出了一种名为SD-GAN的生成对抗网络改进方法，通过将指数移动平均（EMA）生成器作为教师模型，指导正在训练的生成器（学生模型），利用感知损失进行知识蒸馏。该方法在理论层面证明了其在Dirac-GAN设置下的局部渐近稳定性，并有效缓解了传统GAN中常见的寄生循环现象。实验表明，SD-GAN在多个图像质量指标上提升了生成效果，优化过程更加稳定，并且对预训练GAN模型的微调也表现出良好效果。

2605.08575 2026-05-12 cs.LG cs.AI

Uncovering Intra-expert Activation Sparsity for Efficient Mixture-of-Expert Model Execution

Jongseok Park, Sunga Kim, Zhenyu Gu, Ion Stoica, Alvin Cheung

AI总结本文研究了在稀疏激活的专家混合（MoE）模型中，如何利用专家内部的激活稀疏性来提升推理效率。通过分析多个预训练MoE模型，发现无需修改模型结构或激活函数即可获得高达90%的专家内部稀疏性，从而显著减少计算量。基于此，作者将这一特性集成到vLLM推理框架中，通过跳过未激活的神经元计算，在保持精度的前提下实现了MoE层执行速度提升2.5倍，端到端速度提升1.2倍。

2605.08574 2026-05-12 cs.CV cs.LG

Post-hoc Selective Classification for Reliable Synthetic Image Detection

Kaixiang Zheng, Jacob H. Seidman

AI总结随着合成图像日益逼真，可靠的合成图像检测技术对于防止其滥用变得尤为重要。尽管基于深度神经网络的检测方法在分布内表现良好，但在面对协变量偏移时可靠性不足。为此，本文提出一种后验选择性分类框架ReSIDe，通过从中间层推广logit概念并优化置信度估计，显著提升了检测模型在协变量偏移下的选择性分类性能。

2605.08572 2026-05-12 cs.CV

Enhancing Consistency Models for Multi-Agent Trajectory Prediction

Alen Mrdovic, Qingze, Liu, Danrui Li, Mathew Schwartz, Kaidong Hu, Sejong Yoon, Mubbasir Kapadia, Vladimir Pavlovic

AI总结本文研究了如何提升一致性模型在多智能体轨迹预测中的性能，针对扩散模型因迭代去噪导致推理延迟的问题，提出了一种改进的一致性模型训练与生成方法。通过引入学生-教师一致性训练框架，结合真实轨迹信息增强监督，并利用直接去噪特性实现多样本生成，有效提升了预测精度与推理速度。该方法在大规模Argoverse 2数据集上取得了具有竞争力的预测效果。