arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.07155 2026-05-11 cs.LG

Regret-Oracle Complexity Tradeoffs in Agnostic Online Learning

Idan Attias, Steve Hanneke, Arvind Ramaswami

AI总结在无先验知识的在线学习中，传统方法依赖于Littlestone标准最优算法（SOA），但该算法计算复杂度极高。本文提出一种更高效的策略，通过引入弱一致性预言机，动态剪枝非可实现的标签序列，显著降低了预言机复杂度，将总查询复杂度从指数级降至多项式级别，同时保持近似最优的期望遗憾。此外，研究还量化了遗憾与预言机复杂度之间的权衡关系，并给出了相应的上界和下界分析。

2605.07154 2026-05-11 cs.CV

PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition

Yuchen He, Jing Zhang

AI总结 PRIMED 是一种用于指代音频-视觉分割（Ref-AVS）的新方法，旨在根据视觉、听觉和文本线索在视频帧中定位和分割目标对象。该方法基于认知神经科学中的偏差竞争理论，通过自适应模态抑制机制，有效区分不同模态的相关性，提升分割精度。PRIMED 引入模态先验解码器和跨模态融合模块，结合空间感知语义对齐损失，显著增强了模型对前景与背景的区分能力，在 Ref-AVS 基准测试中取得了最先进的性能。

Comments 11 pages, 8 figures

2605.07153 2026-05-11 cs.CL

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Wanli Yang, Hongyu Zang, Junwei Zhang, Wenjie Shi, Du Su, Jingang Wang, Xueqi Cheng, Fei Sun

AI总结本研究探讨了强化学习（RL）在提升大语言模型（LLMs）参数知识直接回忆能力方面的潜力。通过受控的零样本、单跳、闭书问答实验，研究发现RL在多个事实性问答基准上平均提升了约27%的相对表现，且主要通过重新分配已有知识的概率分布而非获取新事实来实现。研究还表明，最难以处理的样本对提升效果贡献最大，揭示了RL在解锁模型潜在参数知识方面的重要作用。

2605.07151 2026-05-11 cs.CV cs.AI

DPG-CD: Depth-Prior-Guided Cross-Modal Joint 2D-3D Change Detection

Luqi Zhang, Zhen Dong, Bisheng Yang

AI总结该研究提出了一种名为DPG-CD的深度先验引导的跨模态融合框架，用于联合检测2D语义变化和3D高度变化，以应对城市形态分析和应急响应中的挑战。通过引入估计的深度先验缓解影像与DSM之间的模态差异，并采用门控融合机制有效结合几何与光谱特征，最终利用多任务解码器同时预测2D语义变化和3D高度变化，实验表明该方法在多个公开数据集上优于现有先进方法。

详情

英文摘要

Urban spatial evolution is manifested not only through horizontal expansion but also through vertical structural changes. Consequently, jointly capturing 2D semantic changes and 3D height changes is essential for urban morphology analysis and emergency management. In practical scenarios, collecting 3D observations is often constrained by high acquisition costs and the inability to support frequent updates. The multi-temporal cross-modal input consisting of pre-event Digital Surface Model (DSM) and post-event imagery provides a practical solution for 3D change detection in high-frequency urban monitoring, disaster assessment, and emergency response scenarios. However, this setting remains challenging as imagery and DSM data exhibit significant spectral-geometric representation gaps. Moreover, modality differences may be confused with actual changes, and robust change detection requires effective fusion of semantic and geometric features from multi-temporal data. In this paper, we propose DPG-CD, a depth-prior-guided multi-temporal cross-modal fusion framework for joint 2D semantic and 3D height change detection. Specifically, an estimated depth prior is introduced into the imagery to mitigate the modality gap with DSM. A gated fusion mechanism then selectively injects geometric cues from depth prior while preserving discriminative spectral representations. Subsequently, a multi-stage cross-temporal cross-modal feature fusion architecture is employed to extract change-aware features. Finally, a multi-task decoder jointly predicts 2D semantic changes and 3D height changes, complemented by an auxiliary DSM prediction task to improve structural consistency and height estimation accuracy. Experiments on two public datasets, Hi-BCD and 3DCD, and a new dataset, NYC-MMCD, demonstrate that DPG-CD outperforms state-of-the-art methods on both 2D and 3D change detection tasks.

URL PDF HTML ☆

赞 0 踩 0

2605.07149 2026-05-11 cs.CV

Real-IAD MVN: A Multi-View Normal Vector Dataset and Benchmark for High-Fidelity Industrial Anomaly Detection

Wenbing Zhu, Jianing Liang, Linjie Cheng, Yurui Pan, Zhuhao Chen, Qingwang Yan, Yudong Cheng, Jianghui Zhang, Mingmin Chi, Bo Peng

AI总结工业异常检测（IAD）在质量控制中具有重要意义，但现有方法在检测细微几何缺陷方面存在局限。本文提出Real-IAD-MVN，一个大规模多视角法向量数据集，通过高精度表面法向量捕捉微小几何缺陷，弥补了传统2D图像和稀疏3D点云的不足。该数据集从五个不同视角获取高保真表面法向信息，显著提升了缺陷检测能力，并通过基于重建的基线方法验证了其有效性，展示了多模态融合在几何异常检测中的新潜力。

Comments Accepted to CVPR 2025. 15 pages

2605.07148 2026-05-11 cs.CV

Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models

Haoming Wang, Wei Gao

AI总结本文研究了视觉语言模型（VLMs）是否能形成类似人类认知地图的三维场景拓扑表示。作者发现，尽管现有VLMs能从二维输入中表现出空间推理能力，但其内部的三维拓扑表示被颜色、形状等非几何语义信息所掩盖。通过跨场景线性特征提取，研究者分离出一个控制模型空间输出的干净空间子空间，并通过数学方法塑造该表示，证明其与场景三维图的拉普拉斯特征映射一致。进一步引入基于狄利克雷能量的正则化方法，显著提升了模型在现实场景拓扑理解任务中的表现。

2605.07146 2026-05-11 cs.CV

UniV2D: Bridging Visual Restoration and Semantic Perception for Underwater Salient Object Detection

Laibin Chang, Shaodong Wang, Yunke Wang, Xu Zhang, Kui Jiang, Chang Xu, Bo Du

AI总结水下显著目标检测（USOD）在海洋视觉任务中具有重要作用，但由于水下环境中的严重视觉退化，如选择性吸收和介质散射，使得该任务极具挑战性。传统方法通常采用“先增强后检测”的顺序流程，但将低级视觉修复与高级语义感知分离会导致语义不一致问题。为此，本文提出UniV2D，一种统一的视觉到检测网络，通过互惠框架联合优化视觉修复与显著目标检测，引入语义驱动的学习范式，使高级语义信息引导修复过程，同时修复后的视觉线索反过来增强语义感知，从而在多个基准测试中取得优于现有方法的显著性能提升。

2605.07143 2026-05-11 cs.CV cs.NA cs.RO math.NA

TriP: A Triangle Puzzle Approach to Robust Translation Averaging

Zhekai Fan, Wanze Li, Jinxin Wang, Yunpeng Shi

AI总结 TriP 是一种基于三角形拼图思想的鲁棒平移平均方法，旨在从成对相对平移方向中恢复相机位置，是全局结构从运动（SfM）流程中的关键步骤。该方法通过三角形几何推断局部相对边尺度，并在对数域中同步重叠三角形的尺度，从而恢复全局一致的边长和相机位置，提高了对结构化噪声的鲁棒性。TriP 具有理论上的精确性保障，同时具备高效并行计算能力，适用于大规模相机网络，在合成和真实数据集上均显著优于现有方法。

2605.07142 2026-05-11 cs.CV

AGA3DNet: Anatomy-Guided Gaussian Priors with Multi-view xLSTM for 3D Brain MRI Subtype Classification

Peiyu Duan, Xueqi Guo, Sepehr Farhand, Mehmet Berk Sahin, Xinyuan Zheng, James S. Duncan, Gerardo Hermosillo Valadez, Yoshihisa Shinagawa

AI总结本文提出了一种名为AGA3DNet的框架，用于3D脑MRI亚型分类，该方法结合了从放射科报告中提取的解剖短语作为软解剖先验，并与轻量级3D卷积神经网络和多视角xLSTM聚合相结合。通过将解剖短语映射到图谱定义的区域，并利用符号距离变换和高斯加权生成平滑的空间先验，AGA3DNet在无需密集体素标注的情况下提供了可解释的解剖引导。实验表明，该方法在回顾性脑MRI队列中表现出更均衡的性能，并支持临床可解释的定位分析。

Comments CVPR CV4CLINIC 2026

2605.07141 2026-05-11 cs.CV cs.AI

Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

Yuan Yao, Qiushi Yang, Humen Zhong, Jiangning Wei, Yifang Men, Shuai Bai, Miaomiao Cui, Zhibo Yang

AI总结该研究提出了一种名为 Qwen3-VL-Seg 的高效框架，用于解决开放世界指称分割问题，即如何将自然语言描述准确映射到图像的像素级区域。该方法通过将大语言模型预测的边界框作为语义先验，结合轻量级的掩码解码器，实现了从稀疏框到密集分割结果的生成，仅引入了约 17M 参数。研究还构建了 SA1B-ORS 数据集和 ORS-Bench 基准，实验表明该模型在多种任务和分布下均表现出色，尤其在语言复杂性和开放世界场景中具有显著优势。

详情

英文摘要

Open-world referring segmentation requires grounding unconstrained language expressions to precise pixel-level regions. Existing multimodal large language models (MLLMs) exhibit strong open-world visual grounding, but their outputs remain limited to sparse bounding-box coordinates and are insufficient for dense visual prediction. Recent MLLM-based segmentation methods either directly predict sparse contour coordinates, struggling to reconstruct continuous object boundaries, or rely on external segmentation foundation models such as the Segment Anything Model (SAM), introducing substantial architectural and deployment overhead. We present Qwen3-VL-Seg, a parameter-efficient framework that treats the MLLM-predicted box as a semantically grounded structural prior and decodes it into pixel-level referring segmentation. At its core, a lightweight box-guided mask decoder combines multi-scale spatial feature injection, spatial-semantic query construction, box-guided high-resolution pixel fusion, and iterative mask-aware query refinement, introducing only 17M parameters (about 0.4\% of the base model). For scalable open-world training, we construct SA1B-ORS, an SA-1B-derived dataset with two subsets: SA1B-CoRS (category-oriented samples) and SA1B-DeRS (descriptive, instance-specific samples). For evaluation, we curate ORS-Bench, a manually screened benchmark with in-distribution and out-of-distribution subsets covering diverse referring expression types. Extensive experiments on referring expression segmentation, visual grounding, and ORS-Bench show that Qwen3-VL-Seg performs strongly across closed-set and open-world settings, with clear advantages on language-intensive instructions and strong out-of-distribution generalization. Evaluations on general multimodal benchmarks further show that the model broadly preserves general-purpose multimodal competence after segmentation-oriented adaptation.

URL PDF HTML ☆

赞 0 踩 0

2605.07140 2026-05-11 cs.CV cs.AI

Neurosymbolic Framework for Concept-Driven Logical Reasoning in Skeleton-Based Human Action Recognition

Talha Ilyas, Deval Mehta, Zongyuan Ge

AI总结本文提出了一种基于神经符号系统的骨架驱动人类动作识别框架，将动作识别重新表述为基于运动原语的概念驱动一阶逻辑推理问题。该方法通过可学习的空间和时间运动概念将一阶逻辑谓词与表示学习相结合，实现了对动作语义的可解释逻辑规则学习。通过与大语言模型生成的运动原语描述对齐，构建了感知与推理共享的概念空间，实验表明该方法在多个数据集上取得了具有竞争力的识别性能，并提供了基于逻辑结构的明确解释。

Comments Accepted In Proceedings of the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026)

2605.07139 2026-05-11 cs.CL cs.AI cs.LG

Structural Rationale Distillation via Reasoning Space Compression

Jialin Yang, Jiankun Wang, Jiajun Wu, Henry Leung, Jiayu Zhou, Steve Drew

AI总结在将大型语言模型的推理能力蒸馏到小型模型时，教师模型对相似问题的推理结构和策略往往不一致，导致学生模型难以学习。为此，研究提出了一种基于推理路径压缩的蒸馏方法（D-RPC），通过动态维护一个可复用的高层推理路径库，约束教师模型遵循一致性更强的推理路径，从而生成结构一致且覆盖多样问题类型的解释。实验表明，D-RPC 在多个数学和常识推理基准测试中优于多种主流蒸馏方法，且在保持较少token使用量的情况下取得了更优性能。

2605.07138 2026-05-11 cs.AI cs.LG

Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents

Deeraj S K, Sadhana Devarajan, Krishna Mehra, Sudhakar Mishra

AI总结该研究探讨了基于可验证情感奖励的强化学习（RLVER）训练出的共情代理在对抗性场景下的鲁棒性问题。研究构建了对抗共情基准（AEB）和情感一致性评分（ECS），用于评估模型在面对用户操纵、情绪升级等对抗性交互时的表现。实验表明，RLVER-PPO-Think在对话稳定性与隐藏意图检测方面显著优于基线模型，但在情感状态追踪能力上并未表现出明显提升，揭示了情感响应性与状态追踪能力之间的行为与可解释性分离现象。

2605.07137 2026-05-11 cs.LG cs.AI

Adaptive Negative Reinforcement for LLM Reasoning:Dynamically Balancing Correction and Diversity in RLVR

Yash Ingle, Jaival Chauhan, Ankit Yadav, Sudhakar Mishra

AI总结该研究针对大语言模型（LLM）推理能力提升中的负样本强化学习（NSR）方法，提出了一种自适应负样本强化（A-NSR）框架，以动态平衡错误纠正与多样性生成。通过引入时间依赖的调度函数和置信度加权惩罚机制，模型在训练初期注重错误修正，在后期则转向更精细的更新策略，并根据模型对错误路径的置信度分配不同惩罚权重。实验表明，该方法在多个复杂推理数据集上表现出优越的性能，有效提升了模型的推理准确性和泛化能力。

2605.07134 2026-05-11 cs.CL cs.AI

Region4Web: Rethinking Observation Space Granularity for Web Agents

Donguk Kwon, Dongha Lee

AI总结本文研究了网络代理在感知网页时观察空间粒度的设计问题，指出现有方法采用与动作空间相同元素级粒度的观察方式，未能显式表达网页的功能结构。为此，作者提出Region4Web框架，通过层次分解和语义抽象将网页的AXTree重新组织为功能区域，使代理能够基于功能区域理解页面状态。同时，提出的PageDigest方法将区域级观察信息压缩为跨步骤的页面摘要，显著提升了任务成功率，验证了功能区域粒度在提升代理性能方面的有效性。

2605.07133 2026-05-11 cs.LG cs.AI

GAD in the Wild: Benchmarking Graph Anomaly Detection under Realistic Deployment Challenges

Jingjing Zhou, Shiyu Huang, Qing Qing, Zuquan Yuan, Huafei Huang, Ziqi Xu, Mingliang Hou, Xikun Zhang, Renqiang Luo, Ivan Lee

AI总结本文针对图异常检测（GAD）在实际部署中面临的真实挑战，提出一个多维基准测试框架，系统评估模型在大规模图、极端异常稀疏和缺失节点属性等场景下的性能。研究发现，现有大多数基于图神经网络的方法难以处理百万级节点图，且在真实异常比例下检测效果显著下降，重建类模型对属性填补策略也极为敏感。该工作通过五个多样化图数据集构建基准，揭示了当前GAD模型在实际应用中的局限性，并为构建鲁棒、可扩展的图异常检测系统提供了诊断测试平台。

2605.07130 2026-05-11 cs.LG cs.DS

Simple KNN-Based Outlier Detection Achieves Robust Clustering

Tianle Jiang, Yufa Zhou

AI总结本文研究了在存在异常值情况下如何实现鲁棒聚类的问题，重点探讨了经典异常值检测启发式方法在鲁棒 $k$-Means 中的有效性。作者证明，在合理假设下，仅通过移除 $K$-最近邻距离较大的点，即可达到与现有方法相当的近似保证，且无需引入额外中心或移除更多异常值。实验表明，该方法在实际数据集上的聚类效果和运行效率优于或匹敌多种更复杂的算法，展示了基于 $K$-近邻的简单启发式方法在鲁棒聚类中的潜力。

Comments Code: https://github.com/MasterZhou1/Robust-Clustering

2605.07127 2026-05-11 cs.LG cs.CL

The Position Curse: LLMs Struggle to Locate the Last Few Items in a List

Zhanqi Zhang, Hua-Dong Xiong, Robert C. Wilson, Mikio Aoi, Marcelo G. Mattar, Li Ji-An

AI总结现代大语言模型（LLMs）在从大量文本中定位特定信息时表现优异，但在定位短列表中最后几个项目时却常常失败，我们称这一现象为“位置诅咒”。研究通过两种互补任务评估了模型在序列中根据位置或项目检索内容的能力，发现模型在反向检索（如从列表末尾向起点定位）上的表现明显弱于正向检索。为改善这一问题，研究构建了聚焦位置任务的训练数据集PosBench，通过LoRA微调提升了模型的正向和反向检索能力，但其性能仍远未达到饱和水平。这一发现突显了位置检索能力在代码理解和编辑等任务中的重要性，为未来模型预训练目标和设计提供了新方向。

2605.07123 2026-05-11 cs.LG

Convergence and Emergence of In-Context Reinforcement Learning with Chain of Thought

Zixuan Xie, Xinyu Liu, Rohan Chandra, Shangtong Zhang

AI总结本文研究了基于思维链（CoT）的上下文强化学习（ICRL）的收敛性与涌现机制，首次从理论上分析了CoT如何增强ICRL能力。通过线性Transformer的策略评估设置，作者证明在特定参数下，CoT生成等价于重复执行时间差分学习更新，并给出了有限样本下的收敛分析，表明策略评估误差随CoT长度几何级数下降并最终趋于由上下文长度决定的统计下限。此外，研究还证明了这些参数是预训练损失的全局最小值，为该参数的实证涌现提供了理论解释。

2605.07120 2026-05-11 cs.LG stat.ML

When Symbol Names Should Not Matter: A Logistic Theory of Fresh-Symbol Classification

Wenjie Guan, Jelena Bradic

AI总结该论文研究了在固定标签分类任务中，模型是否能基于抽象模板而非具体符号名称进行推理的问题。作者提出了一种正则化核逻辑分类方法，分析了在训练数据中由于符号偶然重叠引起的扰动，并通过着色碰撞图对这些扰动进行建模。研究证明了在新鲜符号分类任务中，模型的分类边界具有高概率的迁移保证，并揭示了词汇规模与碰撞几何对分类性能的不同影响，为理解符号抽象和泛化提供了新的理论视角。

2605.07116 2026-05-11 cs.LG cs.AI cs.NA math.NA math.OC

Stabilized neural Hamilton--Jacobi--Bellman solvers: Error analysis and applications in model-based reinforcement learning

Minseok Kim, Yeongjong Kim, Namkyeong Cho, Yeoneung Kim

AI总结本文研究了基于神经网络求解Hamilton-Jacobi-Bellman方程的稳定方法，并在模型预测强化学习中进行了应用。该方法结合了有限差分策略评估结构与神经网络表示，通过随机连续配点最小化残差，避免了传统网格方法的限制。论文建立了该混合方法的误差分析理论，证明了单步策略评估的稳定性，并分析了残差、初始误差、策略偏差及模型识别误差等因素的影响，同时给出了有限样本下的误差保证和多步策略改进的条件结果。实验表明该方法在多个控制任务中优于传统模型基和无模型强化学习方法。

2605.07115 2026-05-11 cs.LG stat.ML

Conformal-Style Quantile Analyses for Stochastic Bandits

Chengyu Du, Mengfan Xu

AI总结本文研究了在随机多臂老虎机问题中，如何针对具有强上尾性能的臂进行分析，而非传统的平均奖励准则。作者提出了一种基于符合性（conformal）方法的上尾量化分析框架，并设计了ACPU-CB1算法，该算法结合了自适应的符合性估计与UCB型乐观奖励机制。该方法在保证上尾性能的同时，实现了对数级别的上尾遗憾界，理论分析与实验验证均表明其优于传统UCB算法。

2605.07114 2026-05-11 cs.LG

Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR

Tao Wang, Shuo Li, Yan Sun, Dongsheng Ding, Edgar Dobriban

AI总结本文研究了如何在基于群体的强化学习与可验证奖励（RLVR）中高效分配 rollout 资源，以提升大语言模型的推理能力。为解决现有方法中 rollout 分配不均衡的问题，作者提出了基于“命中效用”的最优 rollout 分配策略 HORA，该方法无需训练即可动态调整每个提示的 rollout 预算，以最大化后验命中效用。实验表明，HORA 在多个数学推理基准上相比现有方法在计算资源匹配的情况下表现更优，且兼容其他群体估计方法。

2605.07113 2026-05-11 cs.LG math.OC

Solving Max-Cut to Global Optimality via Feasibility-Preserving Graph Neural Networks

Hao Chen, Chendi Qian, Christopher Morris, Andrea Lodi, Can Li

AI总结该论文研究了如何通过图神经网络高效求解最大割（Max-Cut）问题的全局最优解。作者提出了一种专门针对Max-Cut问题的图神经网络，作为传统半定规划（SDP）松弛求解器的轻量级替代，能够在分支定界框架中直接使用。该网络能够在保持解可行性的同时预测原始和对偶可行的SDP解，并通过Goemans-Williamson算法生成Max-Cut可行解，实验表明其相比传统SDP求解器大幅降低了计算成本。

2605.07112 2026-05-11 cs.AI cs.MA

Switchcraft: AI Model Router for Agentic Tool Calling

Sharad Agarwal, Pooria Namyar, Alec Wolman, Rahul Ambavat, Ankur Gupta, Qizheng Zhang

AI总结 Switchcraft 是一种专为智能体工具调用优化的 AI 模型路由系统，旨在解决当前基于大型模型的智能体系统推理成本过高的问题。该方法通过在调用工具时动态选择成本最低且保证正确性的模型，显著降低了推理开销。实验表明，Switchcraft 在多个基准测试中实现了与最佳单模型相当的准确率，同时将推理成本降低了 84%，为高效、经济的智能体系统部署提供了新方案。

2605.07110 2026-05-11 cs.CL cs.SE

Securing Computer-Use Agents: A Unified Architecture-Lifecycle Framework for Deployment-Grounded Reliability

Zejian Chen, Zhanyuan Liu, Chaozhuo Li, Mengxiang Han, Songyang Liu, Litian Zhang, Feng Gao, Yiming Hei, Xi Zhang

AI总结随着计算机使用代理（CUA）从受限基准转向真实软件环境，其可靠性不再仅由任务成功率衡量，而需考虑感知误差、规划偏差、权限范围等多方面因素。本文提出一种统一的架构-生命周期框架，用于保障CUA在部署环境中的可靠性，从架构层面分析感知、决策与执行的耦合关系，并从生命周期角度探讨创建、部署、运行与维护各阶段的可靠性保障机制。该框架有助于系统分析现有CUA系统、基准与安全研究，并识别关键干预点以提升控制与保障能力。

2605.07106 2026-05-11 cs.CL

Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning

Jin Cui, Xinyue Long, Xunyong Zhang, Yadong Zhang, Chuanchang Su, Jingye Gan, Boran Zhao, Pengju Ren

AI总结该研究针对多模态大语言模型在视觉推理中的信息瓶颈和隐空间兼容性不足问题，提出了一种基于空间语义对齐的隐空间推理框架RIS。RIS通过构建带有边界框和区域语义描述的分步推理数据集，将隐空间 token 与视觉和语义证据相结合，并引入渐进注意力机制和语言过渡 token，以增强推理过程的可解释性和生成质量。实验表明，RIS在多个视觉推理基准上显著优于现有方法，为实现可信的内部视觉推理提供了可行路径。

Comments 19 pages, 8 figures

2605.07105 2026-05-11 cs.LG cs.CL cs.CY cs.IT math.IT

Theoretical Limits of Language Model Alignment

Lucas Monteiro Paes, Natalie Mackraz, Barry-John Theobald, Federico Danieli

AI总结本文研究了语言模型对齐在固定KL散度预算下的理论极限，分析了奖励提升的最大可能值，并提出了基于Jeffreys散度的闭式表达式，揭示了传统分析中使用的$\sqrt{\texttt{KL}}$的不足。研究还表明，奖励集成可以缓解奖励黑客问题，并通过实验证明最佳-of-$N$方法接近理论极限，而PPO和GRPO方法则表现较差，为对齐算法的改进提供了理论依据。

2605.07104 2026-05-11 cs.LG math.OC stat.ML

Almost Sure Convergence Rates of Stochastic Approximation and Reinforcement Learning via a Poisson-Moreau Drift

Xinyu Liu, Zixuan Xie, Shangtong Zhang

AI总结本文研究了在马尔可夫噪声环境下随机逼近和强化学习算法的几乎必然收敛速率问题。针对一类期望更新具有收缩性的算法（如Q学习和线性时序差分学习），作者提出了一种基于泊松方程修正的Lyapunov漂移构造方法，从而获得了对幂律和调和学习率下接近最优的收敛速率结果。该方法为理解强化学习算法在非独立同分布噪声下的收敛行为提供了新的理论分析工具。

2605.07103 2026-05-11 cs.AI cs.MA

ARMOR: An Agentic Framework for Reaction Feasibility Prediction via Adaptive Utility-aware Multi-tool Reasoning

Ye Liu, Botao Yu, Xinyi Ling, Daniel Adu-Ampratwum, Xia Ning

AI总结本文提出了一种名为ARMOR的智能框架，用于解决计算化学中反应可行性预测的问题。该框架通过建模不同工具的特定效用、自适应选择优先工具并解决工具间的冲突，有效整合多个AI工具以提高预测准确性。实验表明，ARMOR在公开数据集上显著优于现有方法，尤其在工具预测存在冲突的反应中表现突出，展示了其在多工具协同方面的优越性。