arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.09216 2026-05-12 cs.RO

Continuum Robot Modeling with Action Conditioned Flow Matching

Jiong Lin, Jinchen Ruan, Hod Lipson

AI总结该研究针对肌腱驱动连续体机器人的稳态形状预测问题，提出了一种基于动作条件的流匹配建模方法。通过构建轻量3D打印硬件平台和RGB-D数据采集系统，学习从电机动作状态到机器人最终3D几何结构的映射模型，实现了对连续体机器人形状的高精度预测。实验表明，该方法在模拟和实际硬件中均优于现有方法，并可扩展用于基于末端负载条件的形状预测，展示了数据驱动的自建模框架在准静态连续体机器人几何预测中的有效性。

Comments 14 pages, 9 figures

2605.09214 2026-05-12 cs.LG cs.AI cs.IT math.IT math.ST stat.ML stat.TH

Fast Rates for Offline Contextual Bandits with Forward-KL Regularization under Single-Policy Concentrability

Qingyue Zhao, Kaixuan Ji, Heyang Zhao, Quanquan Gu

AI总结本文研究了在单策略可集中性条件下，使用前向KL正则化的离线上下文老虎机问题，提出了首个达到 $\tilde{O}(ε^{-1})$ 的上界分析，显著优于以往 $\tilde{O}(ε^{-2})$ 的慢速率结果。通过引入一种新的凸分析方法，结合悲观原则，统一了表格和一般函数逼近场景，并避开了基于平均值定理的传统证明方法。此外，作者还给出了匹配的下界，证明了所获上界在统计速率上的最优性，并揭示了前向KL正则化在低正则化区域与无正则化方法具有一致的慢速率表现。

Comments 31 pages, comments are welcome

2605.09212 2026-05-12 cs.LG

Rethinking Ratio-Based Trust Regions for Policy Optimization in Multi-Agent Reinforcement Learning

Chulabhaya Wijesundara, Andrea Baisero, Zhongheng Li, Gregory Castañón, Alan Carlin, Christopher Amato

AI总结本文研究了多智能体强化学习中基于比率的信任区域策略优化方法的问题，指出现有方法如MAPPO和MASPO在处理队友非平稳性时会导致优势估计方差增大，进而影响策略更新的稳定性。为此，作者提出了一种新的优化目标MARS，通过引入对称几何屏障替代原有的加法信任区域机制，有效保留了校正梯度并避免概率比趋近于零时的成本爆炸。实验表明，MARS在多个多智能体环境中表现优异，优于或匹敌现有方法。

2605.09208 2026-05-12 cs.LG

TSNN: A Non-parametric and Interpretable Framework for Traffic Time Series Forecasting

Bowen Liu, Haijian Lai, Chan-Tong Lam, Junhao Dong, Benjamin Ng, Wei Ke, Sio-Kei Im

AI总结本文提出了一种名为TSNN的非参数且可解释的交通时间序列预测框架。该方法通过匹配记忆库中的条目来解耦时间序列，利用交通数据的周期性提升预测精度，同时保持模型结构简单且无需可训练参数。实验表明，TSNN在四个真实交通流量数据集上的表现与典型深度学习模型相当，并通过可视化展示了其解耦过程和模型的可解释性。

Comments Accepted by IEEE Transactions on Knowledge and Data Engineering

2605.09204 2026-05-12 cs.LG

LBI: Parallel Scan Backpropagation via Latent Bounded Interfaces

Shaun Christopher Lee, Sangeetha Abdu Jyothi

AI总结反向传播本质上是深度方向的串行过程，导致训练效率受限。本文提出了一种名为LBI的新方法，通过引入低维潜在接口来限制区域间通信，将基于扫描的反向传播计算复杂度从$O(d^3)$大幅降低至$O(r^3)$，从而实现了高效的并行训练。实验表明，LBI在多种模型架构中保持了良好的性能，仅需较小的接口维度即可接近全连接模型的训练效果，为区域并行训练提供了算法基础。

2605.09200 2026-05-12 cs.LG

On Characterizing Learnability for Adversarial Noisy Bandits

Steve Hanneke, Kun Wang

AI总结本文研究了在已知函数类 $\mathcal{F}$ 的情况下对抗性噪声老虎机问题的可学习性。在每一轮中，对手选择一个函数 $f \in \mathcal{F}$，学习者选择一个动作并观察由该动作和函数 $f$ 决定的噪声奖励，目标是通过最小化累积遗憾 $R(T)$ 来优化性能。文章引入了一种凸化后的广义极大极小体积概念，用于刻画函数类的可学习性，并分别针对非自适应和自适应对手给出了相应的学习性刻画，同时提出了关于不可数动作空间的猜想及相关复杂度度量。

2605.09196 2026-05-12 cs.CV cs.AI cs.GR cs.LG cs.RO

RigidFormer: Learning Rigid Dynamics using Transformers

Zhiyang Dou, Minghao Guo, Haixu Wu, Doug Roble, Tuur Stuyck, Wojciech Matusik

AI总结本文提出了一种基于Transformer的模型RigidFormer，用于学习多物体刚体动力学，特别适用于点云等无网格表示。该模型通过对象级的锚点进行动态建模，结合锚点-顶点池化和基于锚点的RoPE注意力机制，实现了高效且高保真的刚体运动模拟。RigidFormer在多个基准测试中表现优于传统网格基方法，计算效率更高，并能处理大量物体和不同点云分辨率的输入。

Comments Project Page: https://people.csail.mit.edu/frankzydou/projects/RigidFormer/index.html

2605.09195 2026-05-12 cs.AI

The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations

Rania Elbadry, Ahmed Heakl, Fan Zhang, Dani Bouch, Yuxia Wang, Preslav Nakov, Zhuohan Xie

AI总结本文研究了大语言模型在生成过时答案时的结构性原因，指出时间漂移（即训练后事实的变化）在模型的残差流中被编码为一个与正确性与不确定性正交的独立方向。研究通过多种实验验证了这一几何特性，并表明基于正确性或不确定性的方法无法检测时间漂移，而直接针对漂移标签训练的线性探针能取得较高的检测性能。该研究揭示了模型内部知识状态与输出之间的机制联系，并提供了可公开获取的代码和数据集。

2605.09190 2026-05-12 cs.CV

AQMP: Image compression through Adaptive Quadtree Refinement and Matching Pursuit with Hyperparameter Optimization

Franco Cerino, Emmanuel Tassone, Manuel Tiglio

AI总结本文提出了一种新型图像编码方法 AQMP，结合自适应四叉树划分与匹配追踪技术，通过动态调整块大小以适应图像局部结构，从而在保证图像质量的前提下实现更高的压缩率。该方法引入超参数优化机制，利用树结构帕尔森估计器进行多目标优化，获得压缩效率与视觉质量之间的最佳平衡。实验表明，AQMP 在与 JPEG 相当的结构相似度（SSIM）下，压缩率可提升至其 4 倍，且在不同压缩条件下均表现出良好的性能。

Comments 34 pages, 18 figures

2605.09189 2026-05-12 cs.LG

Practical Scaling Laws: Converting Compute into Performance in a Data-Constrained World

Christopher M. Bryant, Hao Liu

AI总结本文研究了在数据受限条件下如何将计算资源有效转化为模型性能，提出了对传统缩放定律的改进模型。传统定律在数据丰富、单轮预训练场景下适用，但在数据有限或多轮训练时存在局限，如无法准确描述过拟合和数据不足的情况。作者提出了一种闭式扩展公式，将损失分解为欠容量、欠训练和过拟合项，并在多个实验中验证了其有效性，显著提升了对大规模语言模型缩放规律的预测精度。

2605.09188 2026-05-12 cs.LG cs.AI

DARE: Difficulty-Adaptive Reinforcement Learning with Co-Evolved Difficulty Estimation

Yang Zhou, Can Jin, Zihan Dong, Zhepeng Wang, Yanting Yang, Shiyu Zhao, Lei Li, Runxue Bao, Yaochen Xie, Dimitris N. Metaxas

AI总结 DARE 是一种难度自适应的强化学习框架，旨在提升大语言模型的训练效率和推理效果。该方法通过与策略协同进化的难度估计机制，结合对称 Beta 分布采样和分层训练策略，实现了对不同难度任务的有效学习与响应优化。实验表明，DARE 在多个模型和领域中均优于现有方法，显著提升了训练效率、最终性能和推理效率，尤其在简单任务中生成更简洁的响应，在复杂任务中提升正确性。

2605.09187 2026-05-12 cs.AI cs.CL cs.LG

Emergent Semantic Role Understanding in Language Models

Carla Griffiths, Mirco Musolesi

AI总结本文研究语言模型在预训练过程中是否能自发产生语义角色理解能力，即“谁对谁做了什么”的语义表征。研究通过冻结解码器-only transformer 模型，并训练线性探针来提取语义角色，发现预训练模型的冻结表示中已包含大量语义角色信息，尽管性能未达到微调模型的水平。这表明语义角色理解在预训练中部分出现，但尚未完全形成，且随着模型规模增大，其内部表征趋于更分散的分布形式。

2605.09186 2026-05-12 cs.AI cs.CL

Agentic MIP Research: Accelerated Constraint Handler Generation

Liding Xu, Yugeng Zhou, Sebastian Pokutta

AI总结该研究提出了一种基于智能体的混合整数规划（MIP）研究框架，通过嵌入大型语言模型（LLM）代理，加速了约束处理模块的生成与验证过程。核心方法是将MIP问题中的约束形式化为全局约束，并自动生成仅用于传播的SCIP约束处理模块。实验表明，该框架能够从约束规划中恢复全局约束结构，并在MIPLIB 2017基准集上成功生成可执行的约束检测器，提升了求解效率，展示了LLM代理在自动推进MIP算法研究中的潜力。

2605.09184 2026-05-12 cs.AI cs.CL cs.DB

Open Ontologies: Tool-Augmented Ontology Engineering with Stable Matching Alignment

Fabio Rovai

AI总结本文提出了一种名为 Open Ontologies 的开源本体工程系统，结合大语言模型（LLM）构建、形式化 OWL 推理与基于模型上下文协议的本体对齐。研究发现，稳定的 1 对 1 匹配是提升本体对齐质量的关键因素，在 OAEI 解剖学数据集上取得了较高的 F1 值，且在精确度上优于现有先进系统。实验还表明，通过结构化工具接口访问本体信息，比直接读取原始 OWL 文件能显著提升 LLM 的对齐性能，展示了工具结构在本体交互中的重要作用。

Comments 10 pages, 6 tables. Code: https://github.com/fabio-rovai/open-ontologies

2605.09181 2026-05-12 cs.CV cs.ET eess.IV

Establishing Robust Retinal Eye Tracking: A Weakly Supervised Algorithmic Framework

Bo Wen, Dillon Lohr, Yatong An, Pushkar Anand, Alexander Fix, Ruobing Qian, Catherine A. Fromm, Yimin Ding, Truong Nguyen, Mohamed El-Haddad, Francesco La Rocca

AI总结本文提出了一种基于弱监督学习的新型框架，用于实现鲁棒的视网膜眼动追踪。该方法克服了传统模板匹配方法在应对视网膜特征变化和实际成像条件时的不足，初步实验表明其在6名受试者中达到95百分位的注视误差小于0.45度，具有较高的准确性。这一成果为眼科成像和视觉科学中的眼动追踪提供了新的技术路径。

Comments 2026 IEEE International Conference on Image Processing (Accepted for Publication)

2605.09176 2026-05-12 cs.LG cs.AI

Navigating LLM Valley: From AdamW to Memory-Efficient and Matrix-Based Optimizers

Aditya Ranganath

AI总结本文综述了大语言模型优化器的设计进展，重点探讨了从传统一阶优化器到基于矩阵的高效优化方法的演变。研究分析了多种优化技术，包括自适应矩估计、内存优化、曲率感知和低秩投影等，并讨论了评估这些优化器的基准方法。文章指出，当前大模型优化研究正从单一算法加速转向更全面的、考虑规模与实现复杂性的综合性能比较。

Comments No figures, 65 pages

2605.09173 2026-05-12 cs.LG cs.AI

WavesFM: Hierarchical Representation Learning for Longitudinal Wearable Sensor Waveforms

Peng Cao, Zhijian Yang, Tennison Liu, Jonathan Wang, Jiang Wu, Magdalena Proszewska, Arvind Pillai, Mingwu Gao, Amir Farjadian, Lawrence Cai, Emily Blanchard, Daniel McDuff, Pramod Rudrapatna, Matthew Thompson, Anupam Pathak, Mark Malhotra, Shwetak Patel, Dina Katabi, Paolo Di Achille, Ming-Zher Poh

AI总结 WavesFM 是一种用于长期可穿戴传感器波形的分层表征学习方法，旨在解决高采样频率、多模态依赖和长序列长度带来的健康表型推断挑战。该方法采用两阶段自监督学习框架，首先通过局部编码器提取短时波形的嵌入，再通过时间编码器建模多天尺度上的动态变化，从而同时捕捉局部信号特征和生理节律等复杂模式。WavesFM 在大量真实数据上预训练，表现出在人口统计、生活方式、健康状况和用药等多个任务上的优越性能。

2605.09168 2026-05-12 cs.AI cs.LG

CIVeX: Causal Intervention Verification for Language Agents

Fabio Rovai

AI总结本文提出了一种名为 CIVeX 的因果干预验证器，用于验证语言智能体在调用工具时是否具有可识别的因果效应，从而确保其行为的安全性和有效性。CIVeX 通过将拟执行的动作映射到结构化的因果查询，检查因果效应的可识别性，并返回四种可审计的判断结果，如执行、拒绝、实验或回避。实验表明，CIVeX 在多种基准测试中表现出色，尤其在对抗性混淆场景下，其准确率和效用均优于现有方法，凸显了因果可识别性在工具使用中的关键作用。

Comments 16 pages, 3 figures. Includes Causal-ToolBench, IHDP, ZOZO Open Bandit, and LaLonde NSW evaluations

2605.09167 2026-05-12 cs.CL cs.AI cs.LG

WorldSpeech: A Multilingual Speech Corpus from Around the World

Antonis Asonitis, Luca A. Lanzendörfer, Frédéric Berdoz, Roger Wattenhofer

AI总结该研究提出了WorldSpeech，一个包含65,000小时对齐音频-文本数据的多语言语音语料库，涵盖76种语言，数据来源包括议会记录、国际广播和公共领域有声书等。该语料库为37种语言提供了超过200小时的对齐语音数据，其中28种语言超过500小时，24种语言超过1,000小时。在11种语言上对现有语音识别模型进行微调后，平均相对词错误率降低了63.5%，显著提升了低资源语言的语音识别性能。

2605.09165 2026-05-12 cs.LG cs.CL

Sparse Layers are Critical to Scaling Looped Language Models

Ryan Lee, Jacob Biloki, Edward J. Hu, Jonathan May

AI总结本文研究了循环语言模型在扩展性方面的关键问题，发现稀疏层（如Mixture-of-Experts）对提升模型性能至关重要。通过对比标准和混合专家（MoE）结构的循环与非循环模型，研究发现循环-MoE模型在扩展性上优于标准模型，其原因是循环中不同专家的激活提升了模型表达能力。此外，循环模型在计算与质量的权衡上更具优势，尤其在早期退出点上表现更优，为大规模模型的高效推理提供了新方向。

2605.09160 2026-05-12 cs.LG

Objective-Specific Privileged Bases via Full-Prefix Matryoshka Learning

Arghamitra Talukder, Philippe Chlenski, Itsik Pe'er

AI总结该研究探讨了如何通过全前缀的套娃表示学习（MRL）方法，学习到与任务目标对齐的特权基底，以解决传统表征学习中维度不可辨识的问题。研究证明，在线性情况下，全前缀MRL能够有效恢复有序的主成分方向，并可通过共享统计量高效计算。实验表明，MRL能够生成与任务信号一致的维度结构，其中各维度的数值大小反映了其信息量。

2605.09159 2026-05-12 cs.AI

Do LLMs Experience an Internal Polylogue? Investigating Reasoning through the Lens of Personas

Nils A. Herrmann, Leander Girrbach, Kirill Bykov, Zeynep Akata

AI总结本文探讨了大型语言模型（LLMs）在推理过程中是否经历“内部多角色对话”，即不同行为特征（称为“角色向量”）在生成过程中的动态变化。研究将这些角色向量视为动态信号，通过分析其与隐藏激活之间的对齐时间序列（称为“多角色对话”），揭示了模型推理过程中的行为变化模式。实验表明，多角色对话特征能够有效预测模型在MMLU-Pro任务中的表现，并为推理过程中的行为引导提供了可解释的干预方向，展示了其在推理时监控与调控中的应用潜力。

2605.09157 2026-05-12 cs.LG cs.AI

Revisiting Mixture Policies in Entropy-Regularized Actor-Critic

Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White

AI总结本文研究了在熵正则化策略梯度框架下混合策略的实用性，指出尽管混合策略在理论上比单一策略更具灵活性，但在实际应用中其优势尚未被充分挖掘。作者提出了一种边际化重参数化（MRP）估计器，解决了混合策略在梯度估计中高方差的问题，并通过实验表明，基于MRP的混合策略在多个标准任务中表现优于传统似然比方法，甚至可与高斯策略相媲美，验证了其作为实用工具的潜力。

2605.09154 2026-05-12 cs.LG

Predicting Large Model Test Losses with a Noisy Quadratic System

Chuning Li, Chris J. Maddison

AI总结本文提出了一种预测模型，能够根据模型规模（N）、批量大小（B）和权重更新次数（K）来估计大模型的预训练损失。该模型是首个能够处理批量大小变化的损失预测模型，在计算预算外推（高达1000倍）方面优于基于批量大小和token数的Chinchilla损失模型。该模型可用于在时间、内存和计算等资源约束下寻找最优的N、B、K配置，实验表明其预测结果接近真实最优配置。

Comments ICML 2026

2605.09153 2026-05-12 cs.RO cs.AI

Beyond Self-Play: Hierarchical Reasoning for Continuous Motion in Closed-Loop Traffic Simulation

Weifan Zhang, Xiaofeng Zhao, Adel Bazzi, Mingrui Li, Yifan Wei, Dengfeng Sun

AI总结该研究针对封闭式交通仿真中智能体的行为真实性与可扩展性问题，提出了一种超越自对抗训练的分层推理框架。该方法结合高层多智能体交互推理与底层连续轨迹生成，通过Stackelberg风格的多智能体强化学习生成意图指令，并将其转化为物理合理、场景响应的控制序列。实验表明，该框架在控制平滑性与安全性方面优于自对抗和被动模仿方法，同时保持了良好的交通效率。

Comments Submitted to IEEE Robotics and Automation Letters (RA-L)

2605.09152 2026-05-12 cs.CL q-bio.NC

Meow-Omni 1: A Multimodal Large Language Model for Feline Ethology

Jucheng Hu, Zhangquan Chen, Yulin Chen, Chengjie Hong, Liang Zhou, Tairan Wang, Sifei Li, Giulio Zhu, Feng Zhou, Yiheng Zeng, Suorong Yang, Dongzhan Zhou

AI总结本文提出 Meow-Omni 1，一种专为猫类行为学研究设计的多模态大语言模型，旨在解决动物意图识别中的语义混淆问题。该模型首次融合视频、音频、生理时间序列和文本信息，通过跨模态对齐和专用科学编码器实现对猫的内部状态进行更准确的推理。实验表明，Meow-Omni 1 在新构建的 MeowBench 数据集上取得了领先的意图识别准确率，并开源了模型权重、训练框架和数据集，为跨物种意图理解和实际应用提供了新范式。

2605.09151 2026-05-12 cs.CV

MultiMedVision: Multi-Modal Medical Vision Framework

Frank Li, Bardia Khosravi, Mohammadreza Chavoshi, Young Seok Jeon, Theo Dapamede, Hari Trivedi, Janice Newsome, Judy Gichoya

AI总结本文提出了一种名为 MultiMedVision 的多模态医学视觉框架，旨在统一处理二维（如X光）和三维（如CT）医学影像数据。该框架基于稀疏视觉变换器，通过三维旋转位置嵌入和可变长度序列打包技术，在共享的潜在空间中直接处理混合模态数据，无需模态特定适配器或将三维体积视为二维切片序列。实验表明，MultiMedVision 在多个医学影像基准测试中表现出色，验证了其在跨维度统一表征学习上的有效性。

Comments 9 pages, 2 figures

2605.09150 2026-05-12 cs.LG

AlphaExploitem: Going Beyond the Nash Equilibrium in Poker by Learning to Exploit Suboptimal Play

Vlad Murgoci, Matthijs Spaan, Yaniv Oren

AI总结本文提出了一种名为AlphaExploitem的新方法，旨在扑克等不完全信息博弈中超越纳什均衡，通过学习利用对手的非最优策略来提升自身收益。该方法基于已有强化学习扑克代理AlphaHoldem，引入了分层Transformer编码器以增强对历史牌局的推理能力，并通过引入多样化的可被利用对手来改进训练过程。实验表明，AlphaExploitem能够有效识别并利用不同分布对手的弱点，同时在面对纳什均衡对手时仍能保持良好表现。

2605.09147 2026-05-12 cs.CL cs.AI stat.AP

From Traditional Taggers to LLMs: A Comparative Study of POS Tagging for Medieval Romance Languages

Matthias Schöffel, Esteban Garces Arias

AI总结本文对比研究了传统词性标注工具与大型语言模型（LLMs）在中世纪罗曼语（包括中世纪奥克语、加泰罗尼亚语和法语）词性标注任务中的表现。研究发现，基于LLM的方法在零样本、少样本、单语微调和跨语言迁移等设置下均优于传统标注工具，其中微调和多语训练效果最佳。研究还指出，跨语言迁移对资源匮乏的语言尤为有效，而有针对性的双语训练在特定目标语言上可能优于更广泛的多语配置，为历史自然语言处理提供了重要的实践指导。

Comments Accepted at NLP4DH @ ACL 2026

2605.09146 2026-05-12 cs.CV

Beyond Thinking: Imagining in 360$^\circ$ for Humanoid Visual Search

Jingdong Zhang, Yizhou Wang, Zhengzhong Tu, Xin Li, Wenping Wang, Xiaohang Zhan

AI总结本文研究了人形视觉搜索（HVS）问题，即智能体在360度沉浸式环境中主动探索目标。为了解决现有方法依赖繁琐的多轮推理链（CoT）所带来的高认知负担和数据标注成本，作者提出了一种新的框架“Imagining in 360°”，将探索过程解耦为Imaginator和Actor两个模块。Imaginator通过一次推理预测环境的语义布局，为Actor提供多样化的空间信息分布，从而在不确定环境下实现高效搜索。该方法大幅降低了数据工程成本，并在复杂真实环境中显著提升了搜索效率和成功率。