arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.13170 2026-05-14 cs.LG cs.MA

Finding the Weakest Link: Adversarial Attack against Multi-Agent Communications

Maxwell Standen, Junae Kim, Claudia Szabo

AI总结本文研究了针对多智能体强化学习系统的对抗攻击问题，重点分析如何通过扰动通信信息来破坏系统性能。作者提出利用雅可比矩阵的梯度信息，识别最易受攻击的消息、智能体及时刻，并设计了两种新的对抗损失函数以平衡攻击成功率与影响程度。实验表明，该方法在多个环境中显著提升了攻击效果，优于随机选择策略。

Comments Full version of the Extended Abstract presented at AAMAS 2026

2605.13167 2026-05-14 cs.CL

GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language

Jinwoong Kim, Rui Yang, Huishuai Zhang

AI总结本文介绍了GeoBuildBench，一个用于评估大型语言模型和多模态智能体能否将非正式的自然语言平面几何问题转化为可执行几何构造的基准。该基准不同于以往关注答案正确性或静态图示理解的几何测试集，而是将几何图示视为交互式构造任务，要求模型生成特定领域语言程序以满足明确的几何对象和可验证约束。研究发现，尽管现有模型在任务中取得了一定成效，但仍常出现结构幻觉、遗漏对象和无法满足几何约束等问题，表明几何构造是检验模型可执行推理能力的严格测试环境。

2605.13165 2026-05-14 cs.CL

STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes

Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen

AI总结本文提出了一种名为STOP的结构化策略，用于在数据量有限的情况下对长链推理过程进行高效剪枝。该方法通过自蒸馏生成推理轨迹，并将其映射为结构化的推理接口，再结合最早正确节点（ECN）策略，去除冗余推理步骤，从而在保持推理准确性的同时显著减少生成的token数量。实验表明，STOP在多个数学推理任务中有效提升了推理效率，并减少了分布偏移，优化了推理结构。

Comments 20 pages, 6 figures, 6 tables. Code available at: https://github.com/chenjux/ECN-STOP

2605.13162 2026-05-14 cs.LG

Continual Fine-Tuning of Large Language Models via Program Memory

Hung Le, Svetha Venkatesh

AI总结本文研究了在持续学习场景下如何高效地对大语言模型进行微调，提出了一个基于程序记忆的持续LoRA框架ProCL。该方法受到神经科学中互补学习系统的启发，通过结构化的程序记忆槽和输入条件注意力机制，实现了快速适应与知识保留的平衡。实验表明，ProCL在多个基准上表现出更优的知识保持能力和更低的灾难性遗忘现象。

Comments 18 page, preprint

2605.13158 2026-05-14 cs.CV

Unifying Physically-Informed Weather Priors in A Single Model for Image Restoration Across Multiple Adverse Weather Conditions

Jiaqi Xu, Xiaowei Hu, Lei Zhu, Pheng-Ann Heng

AI总结本文研究了在多种恶劣天气条件下进行图像修复的问题，提出了一种统一的物理感知天气先验模型，能够同时处理雨滴和雾等不同天气引起的退化现象。该方法基于对天气相关视觉因素的分析，构建了一个融合粒子散射和雾状聚集效应的成像模型，并设计了一种基于天气先验的网络结构，通过估计遮挡和透射信息增强特征以恢复清晰场景。实验表明，该方法在多种恶劣天气场景下均优于现有先进方法。

Comments Accepted by TCSVT

2605.13156 2026-05-14 cs.CV

Dual-Pathway Circuits of Object Hallucination in Vision-Language Models

Jiaxin Liu, Ding Zhong, Yue Wang, Zhidong Yang, Zhaolu Kang, Guangyuan Dong, Qishi Zhan, Pengcheng Fang, Aofan Liu

AI总结视觉语言模型（VLMs）在跨模态理解任务中表现出色，但常出现物体幻觉问题，即描述输入图像中并不存在的内容，影响其可靠性和可解释性。本文提出了一种双路径电路分析框架，用于识别和分析VLM中与幻觉相关的电路机制。通过激活路径修补和条件路径分析，研究发现了支持正确预测的视觉接地路径和导致错误输出的幻觉路径，并揭示了两者的交互机制。实验表明，抑制幻觉路径组件可显著减少物体幻觉，且该电路机制在不同模型架构和幻觉类型中具有良好的一致性和可迁移性。

2605.13155 2026-05-14 cs.CV

Pareto-Guided Optimal Transport for Multi-Reward Alignment

Ying Ba, Tianyu Zhang, Mohan Zhou, Yalong Bai, Wenyi Mo, Guiwei Zhang, Bing Su, Ji-Rong Wen

AI总结文本到图像生成模型在偏好优化方面取得了显著进展，但在面对多样化的奖励模型时，实现稳健的对齐仍是一个重大挑战。本文提出了一种基于帕累托前沿引导的最优传输（PG-OT）框架，通过构建特定提示的帕累托前沿，并利用分布感知的最优传输将劣化样本映射至该前沿，从而有效缓解奖励黑客问题。此外，作者引入了联合支配率（JDR）和联合崩溃率（JCR）作为评估多奖励协同效应和奖励黑客风险的指标，实验表明该方法在多个指标上均优于现有方法。

Comments Accepted to ICML 2026

2605.13153 2026-05-14 cs.AI

Strikingness-Aware Evaluation for Temporal Knowledge Graph Reasoning

Rikui Huang, Shengzhe Zhang, Wei Wei

AI总结本文针对时间知识图谱推理（TKGR）中的评估方法提出改进，指出当前方法对所有事件一视同仁，忽略了大多数事件是重复性的，从而高估了模型的推理能力。为此，作者提出一种基于“显著性”的评估框架，通过规则引导的显著性度量方法，区分并强调那些需要更深层次推理的罕见事件。实验表明，该框架能够更严格地评估模型在预测突出事件方面的能力，为TKGR研究提供了新的评价视角。

Comments Accepted to IJCAI-ECAI 2026

2605.13152 2026-05-14 cs.CV cs.AI cs.LG cs.RO

EvObj: Learning Evolving Object-centric Representations for 3D Instance Segmentation without Scene Supervision

Jiahao Chen, Zihui Zhang, Yafei Yang, Jinxi Li, Shenxing Wei, Zhixuan Sun, Bo Yang

AI总结本文提出了一种名为 EvObj 的无监督三维实例分割方法，旨在解决从合成数据到真实点云场景中几何域差距带来的挑战。该方法通过引入对象辨别模块和对象补全模块，实现了对物体先验的动态优化和部分几何结构的重建，从而提升了在真实场景中的分割性能。实验表明，EvObj 在多个数据集上均取得了优于现有方法的分割效果，达到了当前最先进的水平。

Comments CVPR 2026. Code and data are available at: https://github.com/vLAR-group/EvObj

2605.13151 2026-05-14 cs.CV

GenCape: Structure-Inductive Generative Modeling for Category-Agnostic Pose Estimation

Jiyong Rao, Yu Wang, Shengjie Zhao

AI总结 GenCape 是一种面向类别无关姿态估计（CAPE）的生成式框架，旨在仅使用少量标注的支持样本，对任意类别的图像中的关键点进行定位。该方法通过图像支持输入自动推断关键点之间的关系，无需额外的文字描述或预定义的骨骼结构，克服了传统方法对人工标注的依赖和结构灵活性差的问题。GenCape 包含一个迭代结构感知变分自编码器和一个组合图转移模块，能够有效捕捉实例级别的结构信息，并在不同类别间实现语义对齐，实验表明其在少样本设置下优于现有基于图支持和文本支持的方法。

Comments Accepted in ICLR 2026

2605.13149 2026-05-14 cs.CL cs.AI cs.LG

AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

Ishika Agarwal, Sofia Stoica, Emre Can Acikgoz, Pradeep Natarajan, Mahdi Namazifar, Jiaqi Ma, Dilek Hakkani-Tür

AI总结本文提出了一种名为 AcquisitionSynthesis 的方法，利用主动学习中的获取函数作为奖励模型，训练语言模型生成高质量的合成数据，以解决模型训练中数据质量的瓶颈问题。该方法通过量化评估生成数据对下游学习器的影响，提升了数据生成的针对性和有效性。实验表明，使用 AcquisitionSynthesis 生成的数据能够提升学生模型的性能并增强其鲁棒性，同时该方法还可用于支持其他模型训练及资源从低到高的训练范式。

2605.13148 2026-05-14 cs.LG cs.CV

Understanding Generalization through Decision Pattern Shift

Huiqi Deng, Yibo Li, Quanshi Zhang, Peng Zhang, Hongbin Pei, Xia Hu

AI总结本文研究深度神经网络在未见样本上泛化失败的原因，提出了一种新的分析视角——决策模式偏移（DPS）。该方法通过分析模型内部决策模式的稳定性，量化其在训练与测试阶段的偏差，从而衡量泛化性能。研究发现，决策模式在类别间具有高度结构化和一致性，且其变化程度与泛化差距呈强线性相关，为理解不同泛化失败场景提供了统一的解释框架。

Comments 14pages, 12figures, computer vision and pattern recognition

2605.13145 2026-05-14 cs.LG

Collaborating in Multi-Armed Bandits with Strategic Agents

Idan Barnea, Ofir Schlisselberg, Yishay Mansour

AI总结本文研究了多智能体贝叶斯老虎机问题中的协作学习，其中具有战略行为的智能体共同解决同一个老虎机实例。与以往假设短视智能体的文献不同，本文考虑了长期参与的智能体，并提出了一种名为CAOS的机制，能够在纳什均衡下维持协作，同时保证强遗憾上界。研究结果表明，仅通过信息共享即可实现有效的协作探索，其性能接近完全合作系统的水平。

2605.13140 2026-05-14 cs.CV

Multi-Modal Guided Multi-Source Domain Adaptation for Object Detection

Sangin Lee, Seokjun Kwon, Jeongmin Shin, Namil Kim, Yukyung Choi

AI总结该论文研究了多源领域自适应下的目标检测问题，旨在提升模型在目标领域中检测性能，特别是在训练数据分布与目标领域存在差异的情况下。为了解决现有方法在学习领域无关特征时无法有效保留领域特定信息的问题，作者提出了MS-DePro方法，结合深度图和文本提示，分别用于引导目标定位和分类特征对齐。该方法在多个基准测试中取得了最先进的性能，验证了其有效性。

2605.13133 2026-05-14 cs.LG eess.SP

KAST-BAR: Knowledge-Anchored Semantically-Dynamic Topology Brain Autoregressive Modeling for Universal Neural Interpretation

Haoning Wang, Wenchao Yang, Shuai Shen, Yang Li

AI总结本文提出了一种名为KAST-BAR的知识锚定语义动态拓扑脑自回归模型，旨在解决脑电图（EEG）基础模型在跨任务通用神经解码中面临的空间时间拓扑建模不足和生理信号与高层语义之间模态鸿沟的问题。该模型通过双流层次注意力编码器捕捉脑部非欧几里得拓扑结构，并结合知识锚定语义分析模块，将生理信号与专家级语义空间对齐，从而实现更准确的神经信号解码。实验表明，KAST-BAR在多个下游任务中均表现出色，有效融合了医学专家知识以提升EEG信号的理解与解释能力。

2605.13131 2026-05-14 cs.LG cs.RO

ERPPO: Entropy Regularization-based Proximal Policy Optimization

Changha Lee, Gyusang Cho

AI总结本文提出了一种基于熵正则化的近端策略优化算法（ERPPO），旨在解决多智能体强化学习中因非稳态观测导致的策略优化难题。该方法通过引入分布时空模糊性学习器，估计多维观测环境下的目标检测不确定性，并结合动态熵正则化项，在高模糊度情况下增强探索，在低模糊度情况下稳定策略更新，从而提升目标定位的准确性和搜索效率。实验表明，ERPPO在海上搜索等时间敏感任务中表现出优于MAPPO的性能，尤其在视觉不确定条件下能有效抑制误检。

Comments 9 pages, 5 figures

2605.13130 2026-05-14 cs.AI

GRACE: Gradient-aligned Reasoning Data Curation for Efficient Post-training

Junjie Li, Ziao Wang, NingXuan Ma, Jianghong Ma, Xiaofeng Zhang

AI总结本文提出了一种名为GRACE的梯度对齐推理数据筛选方法，用于高效地进行模型后训练。该方法通过分析每个推理步骤与答案梯度方向的对齐程度以及与前序推理路径的一致性，对步骤进行评分，并将这些评分聚合为样本级别的选择依据，无需外部奖励模型或步骤注释。实验表明，GRACE在使用较少数据的情况下仍能保持接近甚至超越全数据的性能，且具有良好的模型迁移能力。

2605.13125 2026-05-14 cs.RO

MoCCA: A Movable Circle Probability of Collision Approximation

Tobias Kern, Christian Birkner

AI总结在自动驾驶中，准确评估碰撞概率（POC）对于避障和安全驾驶至关重要。本文提出了一种名为MoCCA的形状近似算法，通过为每辆车优化单个圆来近似其几何形状，从而在保持计算效率的同时减少保守性过高的问题。该方法建立了近似误差的上界，并引入了基于方向方差可调节的安全距离余量，以应对部分覆盖情况下的POC低估问题。

Comments Accepted at ITSC 2026

2605.13123 2026-05-14 cs.RO

Multi-Depth Uniform Coverage Path Planning for Unmanned Surface Vehicle Surveying

Maider Larrazabal, Tong Yang, Izaro Goienetxea, Jaime Valls Miro

AI总结本文提出了一种用于无人水面船舶水下地形测绘的新型自动覆盖路径规划算法。传统方法基于固定深度的往返路径，无法适应海底地形变化，导致覆盖不均；本文方法结合粗略的深度先验信息，动态调整路径生成与传感器覆盖范围，实现海底地形的均匀覆盖。实验表明，该方法在合成与真实场景中均显著优于传统方法，覆盖率分别超过99%和92%，具有重要的实际应用价值。

Comments Accepted by ICRA 2026

2605.13122 2026-05-14 cs.CV

Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation

Jingxuan He, Xiyu Wang, Yunke Wang, Mengyu Zheng, Chang Xu

AI总结本文研究了基于指令的图像编辑模型在零样本参照图像分割任务中的语义定位能力。通过分析发现，这些模型在去噪过程的早期阶段已能生成具有强前景-背景可分性的内部表示，从而隐含实现了语言条件下的语义定位。基于此，作者提出了一种无需训练的框架，利用预训练图像编辑模型的中间表示，将分割任务分解为空间注意力和语义判别两个部分，实现了无需完整图像生成即可获得高精度分割掩码的方法，并在多个数据集上取得了优于现有零样本方法的性能。

2605.13119 2026-05-14 cs.RO cs.AI cs.CV

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

Zixing Lei, Changxing Liu, Yichen Xiong, Minhao Xiong, Yuanzhuo Ding, Zhipeng Zhang, Weixin Li, Siheng Chen

AI总结该研究旨在解决视觉-语言-动作（VLA）模型在长期任务中执行能力受限的问题，提出了一种将高层视觉语言模型与专用工具型VLA模块相结合的新策略。通过引入工具对齐的后训练方法（TAPT）和工具族接口，实现了高效的长期任务规划与执行协同，显著提升了机器人在复杂环境中的任务完成率和指令遵循精度。

2605.13117 2026-05-14 cs.RO cs.AI

SECOND-Grasp: Semantic Contact-guided Dexterous Grasping

Han Yi Shin, Heeju Ko, Jaewon Mun, Qixing Huang, Jaehyeok Lee, Sung June Kim, Honglak Lee, Sujin Jang, Sangpil Kim

AI总结本文提出 SECOND-Grasp，一种语义引导的灵巧抓取框架，旨在将物理稳定性与语义任务理解相结合，以实现更可靠的机器人抓取。该方法通过视觉-语言推理生成粗略接触区域，并利用语义-几何一致性优化技术提升接触预测的准确性，最终通过逆运动学生成可行的抓取姿态。实验表明，该方法在已见和未见物体类别上的抓取成功率分别达到98.2%和97.7%，并在意图感知抓取任务中表现出显著提升。

2605.13111 2026-05-14 cs.CV

Pyramid Forcing: Head-Aware Pyramid KV Cache Policy for High-Quality Long Video Generation

Jiayu Chen, Junbei Tang, Wenbiao Zhao, Maoliang Li, Jiayi Luo, Zihao Zheng, Jiawei Yang, Guojie Luo, Xiang Chen

AI总结本文提出了一种名为Pyramid Forcing的头部感知金字塔KV缓存策略，用于提升高质量长视频生成的效果。该方法通过分析不同注意力头的历史帧关注模式，识别出三种具有不同特性的头类型，并据此设计差异化的缓存策略，从而有效缓解长期误差累积导致的退化问题。实验表明，该方法在多个指标上显著提升了长时序视频生成的质量。

2605.13108 2026-05-14 cs.CV

Flow Augmentation and Knowledge Distillation for Lightweight Face Presentation Attack Detection

Muhammad Shahid Jabbar, Muhammad Sohail Ibrahim, Taha Hasan Masood Siddique, Kejie Huang, Shujaat Khan

AI总结本文研究了在复杂攻击方式和多变采集条件下实现轻量级人脸活体检测（FacePAD）的问题，提出了一种结合光流增强和知识蒸馏的方法。通过训练时引入光流信息增强运动表征，推理时无需计算光流，同时设计了一个双分支教师模型融合外观与运动线索，并利用知识蒸馏将运动感知知识传递给轻量的学生模型，显著提升了检测性能并降低了计算开销。实验表明，该方法在多个基准数据集上取得了优异的检测效果，并能在嵌入式设备上实现每秒52帧的实时检测。

Comments Accepted at 2026 International Conference on Automatic Face and Gesture Recognition (FG)

2605.13105 2026-05-14 cs.RO

What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

Yuanfang Peng, Jingjing Fu, Chuheng Zhang, Li Zhao, Jiang Bian, Mingyu Liu, Ling Zhang, Jun Zhang, Rui Wang

AI总结该研究针对视觉语言动作（VLA）模型在机器人操作任务中面临的视觉变化问题，提出了一种名为PAIR-VLA的强化学习微调框架。该方法通过在PPO优化过程中引入两个辅助目标——动作不变性目标和动作敏感性目标，引导模型在视觉变化时区分任务相关与无关的变化，从而提升模型的鲁棒性。实验表明，PAIR-VLA在多种视觉分布外变化场景下均优于标准PPO方法，显著提升了模型的泛化能力和操作成功率。

2605.13101 2026-05-14 cs.LG cs.AI

Margin-calibrated Classifier Guidance for Property-driven Synthesis Planning

Najwa Laabid, Vikas Garg

AI总结该研究提出了一种名为Sequence Completion Ranking（SCR）的新方法，用于改进基于单步 retrosynthesis 模型的化学合成路径规划。通过引入对比论证和基于边距的损失函数，SCR 能够校准分类器，使其在解码过程中更有效地区分满足特定属性的反应路径，从而提升生成路径的质量与多样性。实验表明，该方法在 USPTO-190 数据集上显著提高了多步合成的成功率，并有效弥补了无模板与有模板方法之间的多样性差距。

2605.13099 2026-05-14 cs.SD

Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval

Boda Xiao, Bo Wang, Heping Cheng

AI总结本文研究如何从非侵入式脑信号（MEG）中检测语音内容，提出了一种无需直接重建语音信号的新方法。该方法首先利用对比学习模型从大规模音频库中检索与测试MEG信号匹配的语音片段，再通过语音检测模型生成静音与语音的二值序列。该方法在LibriBrain 2025语音检测任务中取得了优异成绩，验证了借助外部音频数据库进行语音检测的有效性。

Comments ranked first at LibriBrain Competition 2025 https://neural-processing-lab.github.io/2025-libribrain-competition/prizes/

2605.13094 2026-05-14 cs.RO

Identification of Non-Transversal Bifurcations of Linkages

Andreas Mueller, P. C. López Custodio, J. S. Dai

AI总结本文研究了机构在非横截分岔情况下的运动分支识别问题，提出了一种基于运动切锥的局部分析方法。该方法通过构造性定义的运动切锥提取必要的信息，以区分不同运动分支，弥补了传统局部分析在处理非横截分岔时的不足。文中还提出了一种计算方法，扩展了已有算法框架，为机构奇异性和运动性的研究提供了新的工具。

Comments Paper No: DETC2020-22301, V010T10A090; 8 pages

2605.13093 2026-05-14 cs.CV

RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering

Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu

AI总结 RoSplat 是一种鲁棒的前馈像素级高斯点绘方法，旨在解决在输入视角变化和高分辨率渲染时出现的过亮和孔洞伪影问题。该方法通过引入像素级的 alpha 归一化策略和基于三维采样的辅助正则化器，有效提升了高斯尺度估计的准确性与渲染一致性。实验表明，RoSplat 在多个基准数据集上显著优于现有方法，尤其在输入视角变化和高分辨率场景下表现优异。

2605.13088 2026-05-14 cs.LG

Bayesian Nonparametric Mixed-Effect ODEs with Gaussian Processes

Julien Martinelli, Maksim Sinelnikov, Harri Lähdesmäki, Quentin Clairon, Mélanie Prague

AI总结该论文提出了一种基于贝叶斯非参数方法的混合效应常微分方程（ODE）模型，用于处理具有个体差异的动态系统建模问题。该方法通过将每个个体的动态场分解为共享的群体成分和个体特异性偏差，并为两者赋予高斯过程先验，从而在保持不确定性量化的同时提升了模型的灵活性。研究引入了结合状态空间高斯过程轨迹先验和虚拟配点观测的训练方法，有效提高了对群体动态场和个体轨迹的预测性能。