arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2603.11045 2026-05-15 cs.LG cond-mat.mtrl-sci cs.AI cs.CV physics.ins-det

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette

发表机构 * Princeton University（普林斯顿大学）

AI总结本文提出了一种名为NeFTY的神经场热层析成像方法，用于解决无标签的三维逆热传导问题。该方法通过将扩散率表示为基于坐标的连续神经网络，并在每次优化步骤中使用可微分的隐式欧拉热求解器，确保控制方程在离散化层面精确成立，而非作为软约束。实验表明，NeFTY在合成三维基准测试和真实热成像数据中均显著优于传统物理信息神经网络和体素网格方法，在缺陷分割和深度估计方面表现出优越性能。

Comments 37 pages, 19 figures

2603.03577 2026-05-15 cs.CV cs.RO

From Local Matches to Global Masks: Template-Guided Instance Detection and Segmentation in Open-World Scenes

Qifan Zhang, Sai Haneesh Allu, Jikai Wang, Yangxiao Lu, Yu Xiang

发表机构 * IRVLUTD

AI总结本文研究了在开放世界场景中，如何利用少量模板图像检测和分割新颖物体实例的问题。提出了一种名为L2G-Det的局部到全局检测框架，通过模板与查询图像之间的密集块级匹配生成候选点，并结合改进的分割模型实现精确的实例分割。该方法避免了传统提案机制的依赖，提升了在遮挡和背景干扰下的检测与分割性能。

Comments Accepted to Robotics: Science and Systems (RSS) 2026. Project page: https://irvlutd.github.io/L2G/

2603.02115 2026-05-15 cs.RO cs.AI cs.LG

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons

Anthony Liang, Yigit Korkmaz, Jiahui Zhang, Minyoung Hwang, Abrar Anwar, Sidhant Kaushik, Aditya Shah, Alex S. Huang, Luke Zettlemoyer, Dieter Fox, Yu Xiang, Anqi Li, Andreea Bobu, Abhishek Gupta, Stephen Tu, Erdem Biyik, Jesse Zhang

发表机构 * Univ. of Southern California（南加州大学）； UT Dallas（德克萨斯大学达拉斯分校）； MIT（麻省理工学院）； Indep. Researcher（独立研究员）； Univ. of Washington（华盛顿大学）； Ai2 ； NVIDIA（英伟达）

AI总结本文提出Robometer，一种通过轨迹比较扩展通用机器人奖励模型的可扩展框架。该方法结合轨迹内部的进度监督与轨迹之间的偏好监督，通过双目标训练：一方面利用专家数据进行帧级进度损失以锚定奖励幅度，另一方面通过轨迹对比偏好损失实现任务轨迹的全局排序约束，从而有效学习真实和增强失败轨迹的奖励函数。为支持该方法的大规模应用，研究者构建了包含超过一百万条轨迹的RBM-1M数据集，实验表明Robometer在多个基准和实际应用中表现出更优的泛化能力和学习效果。

Comments 33 pages, 17 figures

Journal ref RSS 2026

2602.21302 2026-05-15 cs.RO

Learning Dynamic Rope Manipulation Using Task-Level Iterative Learning Control

Krishna Suresh, Chris Atkeson

发表机构 * Carnegie Mellon University（卡内基梅隆大学）

AI总结本文提出了一种任务级迭代学习控制方法，用于实现对绳索的动态操作，特别针对一种非平面绳索操作任务——“飞结”进行演示。该方法仅需一次人类示范和简化的绳索模型，即可在实际硬件上直接学习，无需大量示范数据或仿真支持。通过在每次迭代中求解二次规划问题，将任务空间误差转化为动作更新，从而实现对机器人和绳索模型的逆向控制。实验表明，该方法在7种不同材质和规格的绳索上均实现了100%的成功率，并能在2至5次尝试内实现不同绳索类型之间的迁移。

Comments Project website: https://flying-knots.github.io

2602.19532 2026-05-15 cs.RO cs.SY eess.SY

Bellman Value Decomposition for Task Logic in Safe Optimal Control

William Sharpless, Oswin So, Dylan Hirsch, Sylvia Herbert, Chuchu Fan

发表机构 * UCSD（加州大学圣地亚哥分校）； MIT（麻省理工学院）

AI总结该研究针对高维安全最优控制任务中目标与安全规范的复杂组合问题，提出了一种基于贝尔曼值分解的方法。通过将复杂任务的贝尔曼值分解为由可达-避障、避障及新型可达-避障-循环贝尔曼方程连接的图结构，实现了对任务逻辑的自然组织。研究进一步提出VDPPO算法，将分解后的值图嵌入双层神经网络，自动处理隐含依赖关系，并在多个高维仿真和硬件实验中验证了方法的有效性，显著提升了安全与活性的平衡性能。

2602.13483 2026-05-15 cs.LG cs.AI

Finding Interpretable Prompt-Specific Circuits in Language Models

Gabriel Franco, Lucas M. Tassis, Azalea Rohr, Mark Crovella

发表机构 * Department of Computer Science（计算机科学系）； Boston University（波士顿大学）； Faculty of Computing & Data Sciences（计算与数据科学学院）

AI总结本文研究了语言模型中用于执行任务的内部电路结构，重点在于理解注意力头为何关注特定的词对。为此，作者提出了改进的电路追踪方法 ACC++，该方法基于注意力因果通信原理，能够从单次前向传播中提取出具有因果关系的电路组件及其低维信号，无需替换模型或进行修补。实验表明，ACC++ 识别出的信号在多语言模型中具有可解释性，并揭示了模型对提示结构、语言差异等行为的敏感性，展示了该方法在解释模型行为方面的广泛适用性。

2602.07519 2026-05-15 cs.LG

PALMS: A Computational Implementation for Pavlovian Associative Learning Models' Simulation

Martin Fixman, Alessandro Abati, Julián Jiménez Nimmo, Sean Lim, Esther Mondragón

发表机构 * Artificial Intelligence Research Centre (CitAI), Department of Computer Science, City St George’s, University of London, London, United Kingdom（人工智能研究所在（CitAI），计算机科学系，伦敦城市圣乔治大学，伦敦，英国）； Centre for Computational and Animal Learning Research, CAL-R（计算与动物学习研究中心，CAL-R）

AI总结本文介绍了一种名为PALMS的计算工具，用于在Python环境中模拟巴甫洛夫联想学习模型。该工具不仅实现了经典的Rescorla-Wagner模型，还包含了多种注意机制模型及其扩展，如 Pearce-Kaye-Hall、Mackintosh Extended 和 Le Pelley 的混合模型，并引入了一个统一的学习率变量以融合不同理论观点。PALMS 提供图形化界面，支持输入复杂的实验设计，并能处理大量刺激和配置性线索的计算，显著提升了模型的预测能力，为神经科学家提供了研究和优化实验设计的有力工具。

Comments PALMS is licensed under the open-source GNU Lesser General Public License 3.0. The environment source code and the latest multiplatform release build are accessible as a GitHub repository at https://github.com/cal-r/PALMS-Simulator

详情

英文摘要

In contrast to static formalisms, computational definitions describe the operational mechanisms of a model. Simulations are an essential part of the cycle of theory development and refinement, assisting researchers in formulating the precise definitions that models require, and making accurate predictions. This manuscript introduces a computational implementation of Pavlovian learning models in a Python environment, termed Pavlovian Associative Learning Models' Simulation (PALMS). In addition to the canonical Rescorla-Wagner model, attentional approaches are implemented, including Pearce-Kaye-Hall, Mackintosh Extended, Le Pelley's Hybrid, and a novel extension of the Rescorla-Wagner model featuring a unified variable learning rate that synthesises Mackintosh's and Pearce and Hall's opposing conceptualisations. To our knowledge, only the first attentional model has been previously specified computationally in a general design tool. PALMS integrates a graphical interface that permits the input of entire experimental designs in an alphanumeric format, akin to that used by experimental neuroscientists. It uniquely enables the simulation of experiments involving hundreds of stimuli, such as those used with human participants, and the computation of configural cues and configural-cue compounds across all models, thereby substantially broadening their predictive capabilities. A comprehensive description of the models' implementation is provided in the paper. We evaluate PALMS by simulating five published experiments in the associative learning literature that assessed the predictive scope of existing models, and we show that this implementation provides neuroscientists with a useful tool for identifying critical variables, refining experimental designs, making precise predictions, comparing model fitness, and formulating new theoretical approaches.

URL PDF HTML ☆

赞 0 踩 0

2602.05319 2026-05-15 cs.LG

Accelerated Sequential Flow Matching: A Bayesian Filtering Perspective

Yinan Huang, Hans Hao-Hsun Hsu, Junran Wang, Bo Dai, Pan Li

发表机构 * Georgia Institute of Technology（佐治亚理工学院）

AI总结本文提出了一种名为“顺序贝叶斯流匹配”的新框架，用于从实时流数据中进行序列概率推断。该方法借鉴贝叶斯滤波的思想，通过学习一个概率流将后验分布从一个时间步递推到下一个时间步，从而实现高效的预测分布建模。相比传统的从无信息初始分布反复采样的方法，该方法利用前一时刻的信念作为信息源分布，显著提升了采样效率，在多个科学预测和决策任务中表现出与完整扩散模型相当的性能，但所需的采样步骤更少，大幅降低了推理延迟。

2602.04585 2026-05-15 cs.CV

ImmuVis: Hyperconvolutional Foundation Model for Imaging Mass Cytometry

Dawid Uchal, Marcin Możejko, Krzysztof Gogolewski, Piotr Kupidura, Szymon Łukasik, Jakub Giezgała, Tomasz Nocoń, Kacper Pietrzyk, Robert Pieniuta, Mateusz Sulimowicz, Michal Orzyłowski, Tomasz Siłkowski, Karol Zagródka, Eike Staub, Ewa Szczurek

发表机构 * Faculty of Mathematics, Informatics and Mechanics, University of Warsaw（数学与信息学学院，华沙大学）； Merck Healthcare KGaA（默克健康护理公司）； Institute of AI for Health, Helmholtz Munich（健康人工智能研究所，海德堡-穆恩）

AI总结本文提出了一种名为 ImmuVis 的高效基础模型，专门用于成像质谱流式细胞术（IMC）数据的处理。该模型通过引入标记自适应超卷积，解决了IMC数据中通道不固定的问题，使得模型能够灵活处理不同研究中的标记组合。ImmuVis 在大规模数据集 IMC17M 上进行预训练，相比基于 Transformer 的方法具有更低的计算成本，并在虚拟染色和分类任务中表现出色，同时提供了校准的不确定性估计，为实际应用中的IMC建模提供了实用框架。

Comments 38 pages, 19 figures

2602.02427 2026-05-15 cs.LG

Embedding Perturbation may Better Reflect Intermediate-Step Uncertainty in LLM Reasoning

Qihao Wen, Jiahao Wang, Yang Nan, Pengfei He, Ravi Tandon, Han Xu

发表机构 * University of Arizona（亚利桑那大学）； Michigan State University（密歇根州立大学）

AI总结本文研究了如何更准确地量化大语言模型（LLM）在推理过程中的中间步骤不确定性。作者提出通过分析嵌入扰动对生成结果的影响，来识别模型在推理过程中可能存在的不确定或错误步骤。实验表明，基于嵌入扰动的不确定性度量方法相比概率、采样和贝叶斯等传统方法，在不确定性估计方面表现更优，且具有更高的简洁性和效率。

2601.22197 2026-05-15 cs.LG cs.AI eess.SP

Neural Signals Generate Clinical Notes in the Wild

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； SANKEN, Osaka University（大阪大学SANKEN）

AI总结生成能够总结长期脑电图（EEG）记录中异常模式、诊断发现和临床解释的临床报告仍然是一项耗时的工作。本文提出CELM，首个能够对长时间、变长EEG记录进行多尺度端到端临床报告生成的临床EEG到语言基础模型。该模型结合了预训练的EEG模型和语言模型，通过构建包含9,048名患者约11,000小时EEG记录和9,922份临床报告的大规模数据集进行训练，并发布了自动化报告结构化流程作为基准，实验结果表明CELM在多项评估设置中均优于现有方法，且经临床专家评估，其生成的报告在临床连贯性、诊断可靠性及与专家解释的一致性方面表现更优。

2601.21929 2026-05-15 cs.LG

LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution

Shuangqi Li, Hieu Le, Jingyi Xu, Mathieu Salzmann

发表机构 * EPFL（瑞士联邦理工学院）； UNC Charlotte（北卡罗来纳大学夏洛特分校）； Stony Brook University（史蒂文斯理工学院）

AI总结训练数据归因（TDA）旨在识别哪些训练样本对模型预测产生了最大影响。LoRIF 是一种基于梯度的归因方法，通过利用梯度的低秩结构，解决了大规模训练数据下归因计算中的存储和计算瓶颈。该方法通过低秩分解和截断奇异值分解（SVD）降低了存储和内存需求，同时保持了较高的归因质量，在大规模模型和数据集上展现出显著的效率提升。

2601.20173 2026-05-15 cs.LG cs.HC

MAPLE: Self-Supervised Learning-Enhanced Nonlinear Dimensionality Reduction for Visual Analysis

Zeyang Huang, Takanori Fujiwara, Angelos Chatzimparmpas, Wandrille Duchemin, Andreas Kerren

发表机构 * Linköping University（林肯大学）； University of Arizona（亚利桑那大学）； Utrecht University（乌得勒支大学）； University of Basel（巴塞尔大学）； Linnaeus University（林奈大学）

AI总结本文提出了一种新的非线性降维方法MAPLE，通过改进流形建模增强UMAP算法。MAPLE采用自监督学习方法，利用最大流形容量表示（MMCRs）更高效地编码低维流形结构，有效区分局部相似与不相似数据点的方差，特别适用于具有高内聚类方差和曲面流形结构的生物或图像数据。实验表明，MAPLE在保持计算效率的同时，能够生成更清晰的聚类分离和更细致的子聚类结构。

2601.02179 2026-05-15 cs.CL

Confidence Estimation for LLMs in Multi-turn Interactions

Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier

发表机构 * University of Cambridge（剑桥大学）； Fudan University（复旦大学）

AI总结本文研究了大语言模型在多轮对话中进行置信度估计的问题，当前研究多集中于单轮场景，而多轮对话中随着上下文积累和歧义逐步消除，模型置信度的变化机制尚未被充分探索。为此，作者提出了一个基于“每轮校准”和“信息增加下置信度单调性”的评估框架，并引入了新的指标和生成方法，实验表明传统方法在多轮场景中表现不佳，而提出的基于logit的探针P(Sufficient)在跟踪证据积累方面更具有效性，为构建更可靠、可信的对话代理提供了基础方法。

Comments ACL 2026 Findings

2512.09115 2026-05-15 cs.CV

SuperF: Neural Implicit Fields for Multi-Image Super-Resolution

Sander Riisøen Jyhne, Christian Igel, Morten Goodwin, Per-Arne Andersen, Serge Belongie, Nico Lang

发表机构 * University of Agder（阿格德大学）； University of Copenhagen（哥本哈根大学）

AI总结本文提出了一种名为 SuperF 的多图像超分辨率方法，旨在通过多个亚像素偏移的低分辨率图像提升图像的光学分辨率。该方法基于坐标感知的神经网络（神经场），通过共享一个隐式神经表示（INR）并联合优化图像对齐与重建过程，有效避免了单图像超分辨率中常见的“幻觉”问题。SuperF 不依赖高分辨率训练数据，实验表明其在卫星图像和手持相机拍摄的地面图像上均取得了高质量的超分辨率结果，放大因子高达8倍。

Comments Published at ICLR 2026, Project website: https://sjyhne.github.io/superf/, 23 pages, 13 figures, 8 table

2512.07805 2026-05-15 cs.LG cs.AI cs.CL

Group Representational Position Encoding

Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao

发表机构 * Princeton University（普林斯顿大学）； University of California, Los Angeles（加州大学洛杉矶分校）； IIIS, Tsinghua University（清华大学人工智能研究院）

AI总结本文提出了一种基于群作用的统一位置编码框架 GRAPE，能够涵盖乘法和加法两类机制。乘法 GRAPE 通过指数映射生成保持模长的相对位置表示，能够精确还原 RoPE 并扩展至更复杂的子空间耦合结构；加法 GRAPE 则基于单秩或低秩单射作用，实现了 ALiBi 和 FoX 的精确复现并保持流式计算能力。GRAPE 为长上下文模型中的位置编码提供了理论严谨的设计空间，统一并扩展了现有方法。

Comments Published in ICLR 2026. Project Page: https://github.com/model-architectures/GRAPE

2512.02920 2026-05-15 cs.LG cs.CV cs.SI

Learning Multimodal Embeddings for Traffic Accident Prediction and Causal Estimation

Ziniu Zhang, Minxuan Duan, Haris N. Koutsopoulos, Hongyang R. Zhang

发表机构 * Northeastern University（东北大学）

AI总结本文研究如何利用道路网络数据和卫星图像信息进行交通事故预测与因果分析。作者构建了一个包含美国六州九百万起事故记录和一千万张高分辨率卫星图像的多模态数据集，并结合天气、道路类型和交通流量等标注信息，评估了融合视觉与网络嵌入的多模态学习方法。实验表明，融合两种模态信息可显著提升预测性能，平均AUROC达90.1%，并发现降水、道路类型和季节性因素对事故率有显著影响。

Comments 17 pages. Appeared in KDD 2026

2512.01766 2026-05-15 cs.LG

On the Unreasonable Effectiveness of Last-layer Retraining

John C. Hill, Tyler LaBonte, Xinchen Zhang, Vidya Muthukumar

发表机构 * School of Electrical and Computer Engineering（电气与计算机工程学院）； Georgia Institute of Technology（佐治亚理工学院）； H. Milton Stewart School of Industrial and Systems Engineering（H. Milton Stewart工业与系统工程学院）

AI总结本文研究了最后一层重训练（LLR）方法在提升模型对少数群体鲁棒性方面的有效性。作者发现，即使在训练集的不平衡子集上进行重训练，LLR仍能显著提升最差群体的准确率。研究通过实验证明，LLR的效果主要源于重训练数据集中的组间平衡性，而非此前假设的神经崩溃缓解机制。文章进一步分析了近期提出的CB-LLR和AFR算法如何通过隐式组平衡提升模型鲁棒性。

2511.17299 2026-05-15 cs.RO

MonoSpheres: Large-Scale Monocular SLAM-Based UAV Exploration through Perception-Coupled Mapping and Planning

Tomáš Musil, Matěj Petrlík, Martin Saska

发表机构 * Department of Cybernetics, Faculty of Electrical Engineering, Czech Technical University in Prague（捷克技术大学布拉格分校电子工程系控制系）

AI总结本文提出了一种基于单目视觉的无人飞行器大规模自主探索方法MonoSpheres，解决了仅依靠单目相机进行三维环境探索时稀疏深度数据、自由空间间隙和深度不确定性等问题。该方法通过感知耦合的建图与规划模块，实现了对室内外非结构化环境的安全高效探索，并首次在真实户外环境中实现了基于单目视觉的三维自主探索。实验验证了方法的有效性，并开源了代码以支持后续研究。

Comments 8 pages, 9 figures, accepted to IEEE Robotics and Automation Letters

2511.07308 2026-05-15 cs.LG

Can Stationary Distributions of Scale-Invariant Neural Networks Be Described by the Thermodynamics of an Ideal Gas?

Ildus Sadrtdinov, Ekaterina Lobacheva, Ivan Klimov, Mikhail Burtsev, Mikhail I. Katsnelson, Dmitry Vetrov

发表机构 * Constructor University（Constructor大学）； Mila – Quebec AI Institute（魁北克AI研究所）； Université de Montréal（蒙特利尔大学）； London Institute for Mathematical Sciences（伦敦数学科学研究所）； Institute for Molecules and Materials, Radboud University（分子与材料研究所，拉德堡德大学）

AI总结本文探讨了深度神经网络训练过程中的动力学行为，提出了一种基于热力学的框架，用于描述具有权重衰减的随机梯度下降（SGD）在尺度不变神经网络中的平稳分布。研究将训练超参数（如学习率、权重衰减）与热力学变量（如温度、压力、体积）建立类比，并通过理论分析和实验验证，揭示了SGD动态与理想气体行为之间的紧密对应关系。该框架为理解训练过程提供了物理视角，有助于指导超参数调整和学习率调度器的设计。

Comments Accepted at IJCAI-ECAI 2026 (the 35th International Joint Conference on Artificial Intelligence)

2510.23477 2026-05-15 cs.CL

MMTutorBench: The First Multimodal Benchmark for AI Math Tutoring

Tengchao Yang, Sichen Guo, Mengzhao Jia, Jiaming Su, Yuanyang Liu, Zhihan Zhang, Meng Jiang

发表机构 * Tongji University（同济大学）； Fudan University（复旦大学）； University of Notre Dame（圣母大学）； Nanjing University of Posts and Telecommunications（南京邮电大学）

AI总结 MMTutorBench 是首个用于评估人工智能数学辅导能力的多模态基准，旨在测试模型在问题求解、诊断学生困难和逐步引导等方面的能力。该基准包含685个围绕教学关键步骤构建的数学问题，每个问题配有详细的评分标准，并分为三个任务：洞察发现、操作制定和操作执行。实验表明，当前主流多模态大语言模型在辅导能力上仍与人类教师存在较大差距，且不同输入方式对模型表现有显著影响，凸显了该基准在评估和推动AI数学辅导系统发展中的重要价值。

2510.18326 2026-05-15 cs.CV

Enhancing Few-Shot Classification of Benchmark and Disaster Imagery with ABHFA-Net

Gao Yu Lee, Tanmoy Dam, Md Meftahul Ferdaus, Daniel Puiu Poenar, Vu Duong

发表机构 * School of Mechanical and Aerospace Engineering (MAE), NTU（南洋理工大学机械与航空航天工程学院）； Department of Computer Science, The University of New Orleans（新奥尔良大学计算机科学系）

AI总结随着自然灾害和人为灾害频发，亟需在标注数据有限的情况下具备强鲁棒性的视觉识别系统。本文提出了一种基于注意力机制和巴氏距离的特征聚合网络（ABHFA-Net），用于提升少样本分类在基准和灾害图像上的性能。该方法通过将类别原型建模为概率分布，并利用巴氏距离进行分类，同时引入空间通道注意力机制和对比softmax损失，有效提升了特征判别能力和类别可分性。实验表明，ABHFA-Net在多个基准和真实灾害数据集上均取得优异性能，尤其在灾害图像分类中表现出显著优势。

Comments Revised and Submitted to SN Computer journal

2510.16196 2026-05-15 cs.CV cs.AI

Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI

Zheng Huang, Enpei Zhang, Weikang Qiu, Yinghao Cai, Carl Yang, Elynn Chen, Xiang Zhang, Rex Ying, Dawei Zhou, Yujun Yan

发表机构 * Dartmouth College（达特茅斯学院）； Yale University（耶鲁大学）； Emory University（埃默里大学）； New York University（纽约大学）； UNC Charlotte（北卡罗来纳大学柴郡分校）； Virginia Tech（弗吉尼亚理工大学）

AI总结本文研究如何从功能性磁共振成像（fMRI）信号中重建视觉刺激，以理解大脑如何编码视觉信息。研究发现，fMRI信号与语言模型的文本空间更为相似，而非基于视觉或图文联合的空间，并提出应通过结构化文本空间来更好地表示视觉刺激的组成特性。基于这一发现，作者提出了PRISM模型，通过将fMRI信号投影到结构化文本空间，并结合对象生成和属性关系搜索模块，显著提升了图像重建质量，在真实数据集上实现了感知损失的降低。

2510.07060 2026-05-15 cs.CL

Does Local News Stay Local?: Online Content Shifts in Sinclair-Acquired Stations

Miriam Wanner, Sophia Hager, Anjalie Field

发表机构 * Johns Hopkins University（约翰霍普金斯大学）

AI总结本文研究了 Sinclair 公司收购地方新闻台后对其新闻内容的影响。通过计算方法分析收购前后地方新闻台与全国性新闻机构的内容变化，发现地方新闻台在被 Sinclair 收购后，更频繁地报道全国性新闻，减少了对本地议题的覆盖，并增加了对争议性全国话题的报道。这一研究揭示了媒体所有权变化对新闻内容倾向的潜在影响。

Comments Published at NLP+CSS Workshop @ ACL 2026

2510.00231 2026-05-15 cs.LG cs.AI

The Pitfalls of KV Cache Compression

Alex Chen, Renato Geh, Aditya Grover, Guy Van den Broeck, Daniel Israel

发表机构 * University of California, Los Angeles（加州大学洛杉矶分校）

AI总结本文探讨了KV缓存压缩在实际应用场景中的潜在问题，特别是在多指令提示任务中可能引发的性能下降。研究评估了五种KV缓存压缩方法在大型语言模型中的表现，发现某些指令在压缩后性能急剧下降，甚至被模型完全忽略，并以系统提示泄露为例，分析了压缩对指令遵循能力的影响。文章进一步指出了影响泄露现象的关键因素，并提出了改进KV缓存淘汰策略的简单方法，以提升多指令任务的整体表现。

Comments In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics, ACL 2026

2509.14159 2026-05-15 cs.RO

MIMIC-D: Multi-modal Imitation for MultI-agent Coordination with Decentralized Diffusion Policies

Dayi Dong, Maulik Bhatt, Seoyeon Choi, Negar Mehr

发表机构 * Department of Mechanical Engineering, University of California Berkeley（加州大学伯克利分校机械工程系）

AI总结随着机器人在社会中应用日益广泛，其在多模态任务中与其它机器人和人类协调合作的能力变得至关重要。传统模仿学习方法在处理多模态专家示范时往往无法有效捕捉多种可能的行为模式，而现有基于扩散模型的多智能体方法通常依赖集中式规划或显式通信。本文提出MIMIC-D，一种基于扩散模型的去中心化多智能体模仿学习框架，通过仅使用局部信息联合训练所有智能体策略，实现隐式协调，在仿真和实际硬件实验中表现出优异的多模态协作能力。

Comments 8 pages, 4 figures, 5 tables

2509.01416 2026-05-15 cs.LG

MD-PNOP: Equation-Recast Neural Operators for Minimal-Data Extrapolation and PDE Solver Acceleration

Qiyun Cheng, Md Hossain Sahadath, Huihua Yang, Shaowu Pan, Wei Ji

发表机构 * Department of Mechanical, Aerospace, and Nuclear Engineering（机械、航空航天与核工程系）

AI总结该研究提出了一种名为MD-PNOP的框架，旨在加速参数化偏微分方程（PDE）求解器并实现小样本条件下的参数外推。通过将参数引起的算子差异转化为额外的源项，并结合预训练神经算子进行迭代求解，该方法能够在不重新训练的情况下，从单一训练配置外推到多种未见过的参数场景。实验表明，MD-PNOP在保持物理守恒的前提下显著提升了求解效率，适用于中子输运等实际应用中的复杂问题。

2506.11067 2026-05-15 cs.CL

A Large Language Model Based Pipeline for Review of Systems Entity Recognition from Clinical Notes

Hieu Nghiem, Zhuqi Miao, Hemanth Reddy Singareddy, Jivan Lamichhane, Abdulaziz Ahmed, Johnson Thomas, Dursun Delen, William Paiva

发表机构 * Department of Computer Science（计算机科学系）； Department of Management（管理系）； Department of Medicine（医学系）； Center for Health Systems Science and Information Systems（健康系统科学与信息系统中心）； The State University of New York（纽约州立大学）； Upstate Medical University（上州医学院）； Oklahoma State University（俄克拉荷马州立大学）； Innovation New Paltz（新帕尔茨创新中心）； Department of Health Services（健康服务系）； Center for Health Systems（健康系统中心）； Science and Information Systems University of Alabama at Stillwater, OK, USA（阿拉巴马大学仍水分校）； Innovation Birmingham, AL, USA（伯明翰创新中心）

AI总结该研究提出了一种基于大语言模型（LLM）的高效管道，用于从临床笔记中自动识别“系统回顾”（ROS）实体，如疾病、症状及其所属的身体系统。研究采用四种开源大语言模型，并引入了一种新颖的归因算法，以提高实体识别的准确性。实验结果表明，该管道在多个任务上表现出色，且在资源受限的环境中具有良好的应用前景。

Comments Accepted by IEEE EMBC 2026. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works

2506.04646 2026-05-15 cs.RO cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas

发表机构 * Department of Robotics Engineering, Worcester Polytechnic Institute (WPI)（机器人工程系，沃斯特理工学院（WPI））

AI总结本文提出了一种名为ActivePusher的新型框架，用于非抓取式操作（如推动和滚动）中的主动学习与规划。该方法结合残差物理模型与基于不确定性的主动学习策略，以高效采集最具信息量的训练数据，并与基于模型的运动规划器集成，提升长期规划的可靠性。实验表明，该方法在仿真和实际环境中均表现出更高的数据效率和规划成功率。

Comments Accepted by the 2026 IEEE International Conference on Robotics & Automation (ICRA 2026)

2505.23912 2026-05-15 cs.CL cs.AI

LoVeC: Reinforcement Learning for Better Verbalized Confidence in Long-Form Generations

Caiqi Zhang, Xiaochen Zhu, Chengzu Li, Nigel Collier, Andreas Vlachos

发表机构 * University of Cambridge（剑桥大学）

AI总结本文提出 LoVeC，一种基于强化学习的方法，用于在长文本生成过程中动态添加可解释的置信度评分，以提升生成内容的事实准确性。该方法克服了现有方法在计算效率和任务泛化上的不足，能够在长形式问答任务中实现更高效、更鲁棒的置信度估计。实验表明，LoVeC 在多个数据集上表现出更优的校准能力和跨领域泛化性能，且效率比传统方法高20倍。

Comments ACL 2026 Main

AI 大模型

视觉与机器人

科学与医疗