arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.07102 2026-05-11 cs.CL

SAGE: Hierarchical LLM-Based Literary Evaluation through Ontology-Grounded Interpretive Dimensions

Tianyu Wang, Nianjun Zhou

AI总结本文提出了一种基于本体论的分层大语言模型评估框架SAGE，用于系统评估文学作品的质量，涵盖文化表达、情感深度和哲学内涵等解释性维度。该方法通过多轮迭代反思和独立验证，实现了对文学作品的结构化评估，并在100篇短篇小说上验证了其有效性，取得了高评分一致性和评分者间高度同意。研究发现，经典文学作品在各维度上显著优于通俗小说和大语言模型生成的叙事，且不同层次的评估维度能够有效区分文学质量的不同方面，展示了理论驱动的LLM评估在可靠性和系统性上的潜力。

Comments 19 pages, 4 figures

2605.07094 2026-05-11 cs.LG

Actor-Critic with Active Importance Sampling

Majid Molaei, Gabor Paczolay, Matteo Papini, Alberto Maria Metelli, Marcello Restelli

AI总结本文提出了一种名为 Active-Importance-Sampling Actor-Critic（AISAC）的算法，旨在通过主动重要性采样降低策略梯度估计的方差。该方法在保持梯度无偏性的前提下，优化行为策略以更高效地收集数据，从而提升策略更新和价值函数估计的准确性。实验表明，AISAC 在连续动作空间任务中表现出更快的学习速度、更高的样本效率和更稳定的训练过程，具有在实际应用中推广的潜力。

2605.07093 2026-05-11 cs.CL cs.AI cs.LG

The Translation Tax Is Not a Scalar: A Counterfactual Audit of English-Source Cue Inheritance in Chinese Multilingual Benchmarks

Zezheng Lin, Fengming Liu, Handi Li

AI总结该研究质疑了“翻译税”作为固定标量的传统观点，即认为翻译成中文的基准数据会因保留英文原题线索而提升模型表现。通过多种估算方法和对比实验，研究发现翻译基准的影响并非统一，而是依赖于评估方法和具体题目特性。研究还提出了一种新的自然化测试方法，揭示了不同题目对模型表现的影响存在差异，并为多语言基准测试提供了更严谨的评估框架和数据支持。

Comments 13 pages, 3 figures. Submitted to NeurIPS 2026

2605.07086 2026-05-11 cs.CV cs.LG

Task Relevance Is Not Local Replaceability: A Two-Axis View of Channel Information

Houman Safaai, Andrew T. Landau, Celia C. Beron, Yasin Mazloumi, Bernardo L. Sabatini

AI总结该论文提出了一种新的视角，将视觉网络中通道重要性的评估分为两个维度：任务相关性和局部可替代性。传统方法通常用单一分数衡量通道重要性，而本文通过分离这两个维度，揭示了它们在训练过程中表现出不同的行为和关联模式。实验表明，局部可替代性比任务相关性更能可靠地预测通道的可移除性，为模型剪枝提供了更精细的指导。

2605.07084 2026-05-11 cs.CL

Beyond Single Ground Truth: Reference Monism as Epistemic Injustice in ASR Evaluation

Anna Seo Gyeong Choi, Maria Teleki, James Caverlee, Miguel del Rio, Corey Miller, Hoon Choi

AI总结本文探讨了自动语音识别（ASR）评估中使用单一标准转录本可能引发的认识论不公问题。研究指出，不同转录规范（如逐字、非逐字、法律等）会导致对同一语音输出的评估结果不同，而强制使用单一标准会忽视某些说话者（如失语症患者）的语音特征，造成系统性评价偏差。文章提出了“诠释鸿沟”概念，并引入“认识论不公距离”指标，通过实证分析展示了不同转录规范对WER的影响，进而提出应报告多种规范下的性能范围，而非假定单一正确答案。

2605.07082 2026-05-11 cs.CV

ImplantMamba: Long-range Sequential Modeling Mamba For Dental Implant Position Prediction

Xinquan Yang, Congmin Wang, Xuguang Li, Yulei Li, Linlin Shen, Yongqiang Deng He Meng

AI总结在种植牙手术导板设计中，精确预测种植体位置是一个关键步骤，但医学影像中种植区域通常缺乏明显纹理，使得AI模型难以直接定位。为此，本文提出ImplantMamba，一种基于长程序列建模的网络架构，通过结合卷积神经网络与Mamba层，有效融合邻近牙齿的纹理信息，同时引入斜率耦合预测分支，实现种植体位置与角度的联合预测，显著提升了预测精度与解剖合理性。

2605.07080 2026-05-11 cs.AI cs.DS

Online Allocation with Unknown Shared Supply

Tzeh Yuan Neoh, Davin Choo, Mengchu Yue, Milind Tambe

AI总结本文研究了在未知共享供应情况下的在线资源分配问题，该问题广泛存在于人道主义物流和疫苗分配等实际场景中。作者提出了一个名为OSSA的模型，其中中心枢纽需要在面对序列需求和固定运输成本的情况下，将有限且未知的供应分配到多个地点，并对缺货进行惩罚。为此，作者设计了一种确定性阈值比例策略GPA，并证明其性能接近离线最优解的4/3倍，同时提出了该方法的下界分析，并扩展了其对不完美预测的适应能力，实验表明该方法在供应稀缺时优于传统基准方法。

2605.07079 2026-05-11 cs.CV cs.AI cs.LG cs.RO

Learning Visual Feature-Based World Models via Residual Latent Action

Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias

AI总结该研究提出了一种基于视觉特征的世界模型RLA-WM，通过引入残差潜在动作（RLA）表示，解决了传统特征回归方法在复杂交互中预测模糊或崩溃的问题。RLA从DINO残差中学习，具有预测性、通用性和时间编码能力，结合流匹配方法实现高效预测。RLA-WM在仿真和真实数据集上优于现有特征基和视频扩散模型，且计算速度显著更快，并进一步提出了两种基于RLA-WM的机器人学习技术，提升了策略学习的效率与效果。

2605.07078 2026-05-11 cs.LG

Test-Time Compositional Generalization in Diffusion Models via Concept Discovery

Zekun Wang, Anant Gupta, Tianyi Zhu, Christopher J. MacLellan

AI总结该研究探讨了扩散模型在测试时如何通过概念发现实现组合泛化。不同于以往依赖预定义条件信号的方法，作者提出从扩散模型学习到的时间索引噪声边缘分布中提取查询特定的概念，并在测试时组合这些概念生成新配置。实验表明，该方法在多个组合性基准测试中优于传统基线，展示了扩散模型内部潜在的可复用密度模式概念对组合生成的有效性。

Comments 9 pages

2605.07075 2026-05-11 cs.LG

ModelLens: Finding the Best for Your Task from Myriads of Models

Rui Cai, Weijie Jacky Mo, Xiaofei Wen, Qiyao Ma, Wenhui Zhu, Xiwen Chen, Muhao Chen, Zhe Zhao

AI总结随着开源模型数量的激增，为新数据集选择最佳模型变得愈发困难。ModelLens 提出了一种统一的框架，通过分析公开排行榜上的模型表现数据，学习模型-数据集-指标三元组的潜在表示，从而在无需在目标数据集上运行候选模型的情况下，对未见过的模型和数据集进行推荐。实验表明，ModelLens 在大规模基准测试中显著优于基于元数据或需逐个模型评估的基线方法，并有效提升了多种路由方法的性能。

2605.07073 2026-05-11 cs.AI

TeamBench: Evaluating Agent Coordination under Enforced Role Separation

Yubin Kim, Chanwoo Park, Taehan Kim, Eugene Park, Samuel Schmidgall, Salman Rahman, Chunjong Park, Cynthia Breazeal, Xin Liu, Hamid Palangi, Hae Won Park, Daniel McDuff

AI总结该研究提出TeamBench，一个用于评估智能体在操作系统强制角色分离下协调能力的基准测试，包含851个任务模板和931个实例。通过将任务分解为规划者、执行者和验证者三个角色，并限制各角色的访问权限，确保角色间无法互相替代工作。实验表明，仅依赖提示的角色分配难以准确反映协调效果，而强制角色分离能揭示更多关于协作模式和团队价值的细节。

2605.07072 2026-05-11 cs.LG cs.CR stat.ML

Less Random, More Private: What is the Optimal Subsampling Scheme for DP-SGD?

Andy Dong, Ayfer Özgür

AI总结本文研究了差分隐私随机梯度下降（DP-SGD）中最优的子采样方案，指出传统的泊松子采样虽然便于隐私分析，但其引入的参与方差会削弱隐私增强效果。作者提出了一种结构化的平衡迭代子采样（BIS）方法，通过确保每个样本参与固定数量的迭代，实现了比泊松子采样更强的隐私增强效果，并在噪声趋于零和无穷大的极端情况下达到最优。实验表明，BIS在低噪声场景下能有效减少所需噪声乘数，提升模型实用性和隐私保护水平。

Comments 17 pages, 1 table. Submitted to NeurIPS 2026

2605.07068 2026-05-11 cs.CL cs.AI

WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems

Juan M. Huerta

AI总结本文提出了一种名为 WiCER 的迭代知识编译方法，旨在解决大语言模型（LLM）维基系统中知识编译时关键信息丢失的问题。该方法基于反例引导抽象精化（CEGAR）思想，通过评估编译后的维基内容、识别丢失的事实并在后续编译中加以保留，有效提升了知识编译的质量。实验表明，WiCER 能显著减少灾难性失败，提升维基系统在大规模场景下的性能。

2605.07067 2026-05-11 cs.LG

PolarAdamW: Disentangling Spectral Control and Schur Gauge-Equivariance in Matrix Optimisation

Haozhou Zhang

AI总结本文提出了一种名为PolarAdamW的优化算法，旨在将矩阵优化中的谱控制与Schur规范等变性解耦。该方法结合了Muon的谱范数控制和AdamW的坐标预处理机制，但在保持谱控制的同时打破了规范等变性。实验表明，PolarAdamW在标准变换器任务中优于Muon和AdamW，而在涉及非平凡多重性基自由度的SO(3)等变任务中，Muon则表现更优，从而验证了谱控制与Schur规范等变性的分离及其在不同场景下的适用性。

2605.07064 2026-05-11 cs.CV

Learning to Track Instance from Single Nature Language Description

Yaozong Zheng, Bineng Zhong, Qihua Liang, Shuimu Zeng, Haiying Xia, Shuxiang Song

AI总结本文研究如何在没有任何边界框标注的情况下，仅通过自然语言描述实现视觉-语言（VL）跟踪。为此，作者提出了一种自监督的VL跟踪方法，并引入了名为\tracker的新颖跟踪器，能够根据语言描述追踪任意目标。该方法通过动态令牌聚合模块，对视觉令牌进行非均匀处理，有效提升了语义对齐与跟踪性能，实现了无需大量标注的自监督学习。实验表明，\tracker在多个VL跟踪基准上优于现有最先进的自监督方法。

Comments CVPR 2026

2605.07063 2026-05-11 cs.LG cs.AI

Dr. Post-Training: A Data Regularization Perspective on LLM Post-Training

Pingbang Hu, Xueshen Liu, Z. Morley Mao, Jiaqi W. Ma

AI总结本文研究了大语言模型（LLM）微调过程中如何有效利用稀缺的高质量目标数据与大量但对齐不完美的通用训练数据的问题。提出了一种新的框架Dr. Post-Training，将通用数据视为防止模型过拟合目标数据的正则化项，而非单纯用于数据选择。该方法通过在每一步训练中构建通用数据引导的模型更新方向集合，并将目标数据指定的更新方向投影到该集合中，从而实现更灵活的偏差-方差权衡。实验表明，该方法在多种微调任务中优于现有数据选择方法，且具有较高的计算效率。

2605.07058 2026-05-11 cs.CL cs.AI

MedExAgent: Training LLM Agents to Ask, Examine, and Diagnose in Noisy Clinical Environments

Yicheng Gao, Xiaolin Zhou, Yahan Li, Yue Zhao, Ruishan Liu

AI总结该研究针对真实临床诊断中复杂的交互性与不确定性，提出了一种新的强化学习框架MedExAgent，将诊断过程建模为部分可观测马尔可夫决策过程（POMDP），包含询问患者、安排检查和诊断三种动作类型。研究引入了包含七类患者噪声和三类检查噪声的系统噪声模型，并通过两阶段训练流程，结合监督微调与奖励优化，使MedExAgent在保持检查策略高效的同时，实现了与大模型相当的诊断性能。

2605.07057 2026-05-11 cs.LG

Integrating Causal DAGs in Deep RL: Activating Minimal Markovian States with Multi-Order Exposure

Jiamin Xu, Jacqueline Maasch, Kyra Gan

AI总结该研究探讨了如何在深度强化学习中整合因果图结构，以构建满足马尔可夫性质的最小状态表示。作者提出了一种名为MOSE的方法，通过多阶历史状态输入到同一个Q函数中，有效提升了性能。研究发现，仅依赖最小状态表示不足以提升表现，需引入受控冗余以充分发挥因果状态信息的优势，为因果深度强化学习提供了重要理论指导。

2605.07055 2026-05-11 cs.CV cs.AI

Pan-FM: A Pan-Organ Foundation Model with Saliency-Guided Masking for Missing Robustness

Qiangqiang Wu, Grace McIlvain, Zhou Yu, Junhao Wen

AI总结该研究提出了一种名为Pan-FM的跨器官基础模型，旨在提升多模态医学影像在数据缺失情况下的鲁棒性。该模型基于七个器官的影像数据进行预训练，并引入了一种基于显著性引导的掩码机制（SGM），以减少模型对某些主导器官的依赖，从而实现更均衡的全身学习。实验表明，Pan-FM在疾病预测任务中优于单器官和多器官基线模型，尤其在数据缺失场景下表现出更强的泛化能力。

2605.07051 2026-05-11 cs.CL

NSMQ Riddles: A Benchmark of Scientific and Mathematical Riddles for Quizzing Large Language Models

George Boateng, Naafi Ibrahim, Samuel John, Philemon Badu, Patrick Agyeman-Budu, Jonathan Mensah, Kevin Yeboah, William Edor, Andrew Mensa-Onumah, Nana Yeboah, Victor Wumbor-Apin Kumbol

AI总结本文提出了一种新的科学与数学谜题基准测试集 NSMQ Riddles，源自加纳全国科学与数学竞赛（NSMQ）中的谜题题目，旨在评估大型语言模型在科学与数学推理方面的能力。该基准包含1.8千道谜题，每道题至少包含三个线索，答案多为数字、单词或短语，便于自动评估。实验表明，即使是当前最先进的语言模型在该数据集上的表现也远不如NSMQ的优秀学生选手，突显了该基准的挑战性及其对全球科学教育模型评估的重要意义。

Comments 15 pages. Accepted at the 27th International Conference on Artificial Intelligence in Education

2605.07049 2026-05-11 cs.LG cs.AI

Towards Differentially Private Reinforcement Learning with General Function Approximation

Yi He, Xingyu Zhou

AI总结本文首次为具有通用函数逼近能力的差分隐私在线强化学习提供了理论保证，突破了以往仅限于表格和线性设定的研究。研究结合了分批策略更新方案与指数机制，并提出了新的遗憾分析，证明在模型自由设定下，即使使用通用函数逼近，其遗憾表现仍能达到线性情况下的最优水平，规模为 $\widetilde{O}(K^{3/5})$。此外，研究还揭示了近期基于线性函数逼近的隐私强化学习结果中的关键问题，进一步明确了该领域的发展方向。

2605.07048 2026-05-11 cs.LG cs.AI

Unlocking High-Fidelity Molecular Generation from Mass Spectra via Dual-Stream Line Graph Diffusion

Xujun Che, Xiuxia Du, Depeng Xu

AI总结从串联质谱重建高保真分子结构是一个具有循环依赖关系的逆问题，传统方法因原子与键信息同步不足而受限。本文提出双流线图扩散模型DualLGD，将分子图去噪分解为原子级与键级两个耦合子问题，分别在独立的表示空间中处理，并通过双向交叉注意力机制实现信息同步，确保原子仅关注其连接的键，反之亦然。该方法在多个基准测试中显著提升了生成精度，超越了现有最佳模型。

2605.07042 2026-05-11 cs.AI cs.LG

The Context Gathering Decision Process: A POMDP Framework for Agentic Search

Chinmaya Kausik, Adith Swaminathan, Nathan Kallus

AI总结本文提出了一种名为“上下文收集决策过程”（CGDP）的框架，用于解决大型语言模型（LLM）代理在复杂环境中进行搜索时面临的上下文窗口限制问题。该框架将搜索过程建模为部分可观察马尔可夫决策过程，通过引入基于谓词的信念状态和程序化终止机制，提升了代理的多跳推理能力和搜索效率。实验表明，该方法在多个问答任务中有效提高了性能并减少了冗余计算。

Comments 25 pages

2605.07041 2026-05-11 cs.RO cs.CV

Dr-BA: Separable Optimization for Direct Radar Bundle Adjustment & Localization

Daniil Lisus, Cedric Le Gentil, Timothy D. Barfoot

AI总结本文提出了一种名为 Dr-BA 的雷达光束法平差（BA）框架，能够直接在二维旋转雷达强度图像上进行操作。与传统方法从雷达数据中提取稀疏点云不同，Dr-BA 利用多帧雷达回波联合估计密集地图和传感器位姿，通过可分离优化将位姿估计与地图构建解耦，从而实现高效且通用的解决方案。该方法不仅适用于雷达光束法平差，还可自然扩展到基于已有地图的雷达直接定位，实验表明其在多个不同路线的200公里道路数据上取得了最先进的性能。

Comments Accepted for presentation at RSS 2026

2605.07040 2026-05-11 cs.CL cs.AI cs.CY

Cognitive Agent Compilation for Explicit Problem Solver Modeling

Hyeongdon Moon, Carolyn Rosé, John Stamper

AI总结该研究提出了一种名为“认知代理编译”（CAC）的框架，旨在解决大型语言模型在教育场景中难以约束和控制的问题。通过借鉴认知架构的思想，CAC利用一个强大的教师语言模型，将问题解决知识编译成可编辑的显式代理，从而实现对知识状态、问题解决策略和验证规则的分离与明确表达。该方法为教育系统提供了更可检验和可编辑的知识模型，是迈向有限知识人工智能的重要一步。

Comments Accepted to AIED 2026 Blue Sky

2605.07039 2026-05-11 cs.LG

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Minghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Shuo Chen, Zhankui He, Noveen Sachdeva, Weili Wang, Ed H. Chi, Shivaram Venkataraman, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang

AI总结本文提出了一种名为 PACEvolve++ 的新型强化学习框架，旨在提升进化搜索代理在测试阶段的策略适应能力。该方法将战略搜索决策与具体实现解耦，通过一个可训练的顾问模型生成、评估并选择假设，再由一个更强的前沿模型将其转化为可执行的候选方案。研究还提出了一种阶段自适应的训练策略，使顾问模型能根据进化过程的不同阶段调整优化方式，从而在多个任务中实现了更快的收敛速度和更稳定的测试时训练效果。

2605.07038 2026-05-11 cs.LG cs.MA cs.RO

Learning Material-Aware Hamiltonian Risk Fields for Safe Navigation

Aditya Sai Ellendula, Yi Wang, Chandrajit Bajaj

AI总结本文研究了如何在导航中实现风险感知的策略选择性，即仅在存在更安全可行路径时激活避障动作，否则抑制不必要的机动。核心方法是在端口哈密顿导航策略中引入上下文能量项，从而生成具有可验证选择性特征的力场，并结合条件风险价值（CVaR）目标优化梯度更新。实验表明，该方法在多个场景中显著提升了导航的安全性与成功率，同时减少了误动作和灾难性失败。

2605.07037 2026-05-11 cs.RO

Intention assimilation control for accurate tracking with variable impedance in teleoperation

Atsushi Takagi, Yanan Li, Hiroaki Gomi, Etienne Burdet

AI总结本文研究了远程操作中机器人跟踪精度与安全性的平衡问题，提出了一种新的意图融合控制（IAC）策略，能够在无需高刚度的情况下保证跟踪精度。该方法通过估计领导者的期望位置并传递给从动机器人，实现了从动机器人阻抗的动态调整，以适应任务需求或用户意图。实验表明，IAC在多种任务中均表现出更高的跟踪精度、任务完成率和效率，为远程操作提供了更灵活和精确的控制方式。

2605.07023 2026-05-11 cs.CV

OneViewAll: Semantic Prior Guided One-View 6D Pose Estimation for Novel Objects

Yang Luo, Yan Gong, Yongsheng Gao, Jie Zhao, Xinyu Zhang, Huaping Liu

AI总结在许多实际的6D物体姿态估计场景中，通常只能获取每个物体的一个真实RGB-D参考视图，且往往没有CAD模型。为此，本文提出了一种名为OneViewAll的语义先验引导框架，通过一种新颖的“投影-对比”范式，在无需CAD模型的情况下实现单视图姿态估计。该方法通过三级语义先验逐步优化姿态估计，包括类别与场景级先验、物体对称性先验以及局部区域先验，有效提升了对对称、无纹理及遮挡物体的估计精度。实验表明，OneViewAll在LINEMOD数据集上仅使用单个真实参考视图即可达到92.5%的ADD-0.1精度，显著优于CVPR 2025的基线方法。

2605.07020 2026-05-11 cs.LG cs.AI

FlashMol: High-Quality Molecule Generation in as Few as Four Steps

Xinyuan Wei, Zian Li, Shaoheng Yan, Cai Zhou, Muhan Zhang

AI总结生成化学上有效的三维分子构象对于计算药物发现至关重要。尽管基于扩散的经典模型如GeoLDM表现良好，但其需要数百步生成过程，限制了大规模的虚拟筛选应用。本文提出FlashMol，一种仅需4步即可生成高质量分子构象的超快速生成模型，通过改进分布匹配蒸馏方法并引入正则化策略，有效提升了生成效率与多样性，实验表明其在保持分子质量的同时，采样速度较原模型提升了250倍。