arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2603.29917 2026-05-14 cs.CV

Diffusion-Based Feature Denoising with NNMF for Robust handwritten digit multi-class classification

Hiba Adil Al-kharsan, Róbert Rajkó

发表机构 * Doctoral School of Computer Science, University of Szeged（塞格德大学计算机科学博士学院）； University Research and Innovation Center (EKIK), Óbuda University（奥布达大学研究与创新中心（EKIK））

AI总结本文提出了一种结合扩散驱动特征去噪与混合特征表示的鲁棒手写数字多分类框架。通过非负矩阵分解（NNMF）将输入图像转换为可解释的特征表示，同时利用卷积神经网络提取深层特征，并将两者融合为统一的混合特征表示。在特征空间中引入逐步扩散噪声并训练去噪网络以恢复干净特征，从而提升模型对噪声和对抗攻击的鲁棒性。实验结果表明，该方法在基准和对抗环境下均表现出优越的分类性能。

2603.27134 2026-05-14 cs.LG

Factorization Regret mediates compositional generalization in latent space

John Schwarcz

发表机构 * Edmond and Lily Safra Center for Brain Sciences（埃德蒙和莉莉·萨弗拉脑科学中心）

AI总结本文研究了在已知所有相关变量的情况下，泛化仍可能面临的障碍，提出了一种将组合泛化视为潜在变量间参数化相互作用的变分推断问题的框架。通过构建认知网格世界环境，作者引入了“分解遗憾”这一信息论指标，用于衡量潜在变量相互作用对任务表现的影响，并发现RNN中显式提供交互信息可解释不同网络结构间的性能差异。进一步提出了一种新的架构——表示分类链（RCCs），能够分离变量推断与参数估计，从而在无需显式交互信息的情况下实现组合泛化与新动作空间的离线学习，为研究通用目标导向智能体提供了理论基础。

2603.26839 2026-05-14 cs.LG cs.CV

From Pixels to BFS: High Maze Accuracy Does Not Imply Visual Planning

Alberto G. Rodriguez Salgado

发表机构 * Independent Researcher（独立研究者）

AI总结该研究探讨了多模态模型在解决视觉空间任务时是依赖真正的规划能力，还是通过在文本空间中进行暴力搜索。为此，研究者提出了一个名为 MazeBench 的基准测试，包含 110 个程序生成的迷宫图像，并评估了来自 OpenAI、Anthropic、Google 和阿里巴巴的 16 种模型配置。实验发现，尽管某些模型在视觉迷宫任务中表现出高准确率，但其解题方式主要是将图像转换为文本网格，再逐步枚举路径，而非真正的空间规划，揭示了高准确率并不意味着具备人类水平的空间理解能力。

Comments 15 pages, 10 figures. Code and mazes available at https://github.com/alrod97/LLMs_mazes

2603.24125 2026-05-14 cs.CL

Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study

Nour Bouchouchi, Thibault Laugel, Xavier Renard, Christophe Marsala, Marie-Jeanne Lesot, Marcin Detyniecki

发表机构 * Sorbonne Université, CNRS, LIP6（索邦大学、国家科学研究中心、LIP6实验室）； AXA（安盛）； Polish Academy of Science, IBS PAN（波兰科学院、IBS PAN）

AI总结本研究探讨了大型语言模型在训练过程中学习到的社会规范如何导致性别偏见，并指出现有去偏方法主要关注生成输出中的偏见，而未涉及模型内部表示。为此，作者提出一个统一框架，通过相同中性提示同时分析模型内在和外在的性别偏见，发现对齐方法虽能减少输出中的偏见，但模型内部仍可能存在可被激活的性别关联。研究进一步表明，基于结构化基准的去偏效果在实际应用场景中可能并不稳定。

2603.22910 2026-05-14 cs.CL

EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction

Shiyu Ji, Yixuan Wang, Yijun Liu, Qingfu Zhu, Wanxiang Che

发表机构 * Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, China（社会计算与交互机器人研究院，哈尔滨工业大学，中国）

AI总结随着大语言模型在长上下文应用中对Key-Value（KV）缓存的内存需求不断增长，如何高效压缩KV缓存成为关键问题。本文提出了一种灵活的KV缓存压缩框架EchoKV，通过利用注意力头内部和跨层的相似性，采用轻量网络从部分子集重构被丢弃的KV组件，从而支持按需切换全缓存与压缩缓存模式。实验表明，EchoKV在多种压缩比和模型架构下均优于现有方法，同时在短上下文场景中保持了全缓存推理的吞吐量。

2603.22665 2026-05-14 cs.CL cs.LG

Improving LLM Final Representations with Inter-Layer Geometry

Tom Ulanovski, Eyal Blyachman, Maya Bechler-Speicher

发表机构 * Blavatnik School of Computer Science（布拉瓦特尼克计算机科学学院）； Tel Aviv University（特拉维夫大学）

AI总结本文研究了如何改进基于大语言模型（LLM）的预测性能，通过更有效地利用模型各层的表示信息。传统方法仅使用最终层的表示，而作者提出使用图神经网络（GNN）在LLM各层之间建立连接，以更高效地聚合跨层信息。进一步地，他们引入了基于SL(2, Zn)的Cayley图结构的Cayley-Encoder，显著提升了预测性能与效率，并在多个任务和模型上验证了其有效性，同时保持参数增长极小。

Comments 17 pages, 4 figures. Equal contribution by first two authors

2603.22364 2026-05-14 cs.LG cs.AI cs.CV

MCLR: Improving Conditional Modeling via Inter-Class Likelihood-Ratio Maximization and Unifying Classifier-Free Guidance with Alignment Objectives

Xiang Li, Yixuan Jia, Xiao Li, Jeffrey A. Fessler, Rongrong Wang, Qing Qu

发表机构 * University of Michigan（密歇根大学）； Michigan State University（密歇根州立大学）

AI总结本文提出了一种名为MCLR的新训练目标，旨在通过最大化类间似然比来提升扩散模型的条件生成能力。该方法解决了标准去噪分数匹配（DSM）在类间分离不足的问题，并在训练过程中引入对齐目标，使模型在无需推理时引导（CFG）的情况下也能获得更优的条件生成效果。理论分析表明，CFG引导的分数实际上是针对样本自适应加权MCLR目标的最优解，从而揭示了CFG与对齐目标之间的内在联系。

2603.20527 2026-05-14 cs.LG

RMNP: Row-Momentum Normalized Preconditioning for Scalable Matrix-Based Optimization

Shenyang Deng, Zhuoli Ouyang, Tianyu Pang, Zihang Liu, Ruochen Jin, Shuhua Yu, Yaoqing Yang

发表机构 * Dartmouth College（达特茅斯学院）； International Computer Science Institute（国际计算机科学研究所）； University of California, Berkeley（加州大学伯克利分校）； Meta（Meta公司）

AI总结本文提出了一种名为RMNP的优化算法，用于提升基于矩阵的深度神经网络训练效率。该方法通过将Newton-Schulz迭代替换为基于输入维度的行归一化操作，显著降低了计算复杂度，同时保持了与Muon等方法相当的优化性能。理论分析表明RMNP在非凸场景下具有匹配最优复杂度的收敛性，实验结果显示其在大语言模型预训练中表现出良好的效果并大幅减少了预处理时间。

Comments The 43rd International Conference on Machine Learning (ICML 2026)

2603.20521 2026-05-14 cs.LG cs.AI math.OC stat.ML

Delightful Distributed Policy Gradient

Ian Osband

发表机构 * Google DeepMind（谷歌深Mind）

AI总结分布式强化学习在使用过时、有错误或不匹配的智能体生成的数据进行训练时，容易受到高惊讶度（负对数概率）动作的影响，导致学习效果下降。本文提出的“Delightful Policy Gradient”（DG）方法通过将优势值与惊讶度相乘作为门控机制，有效抑制高惊讶度的失败案例，同时保留高惊讶度的成功案例，从而提升学习效率。实验表明，DG在多种复杂场景下相比传统方法具有显著的样本效率优势，尤其在任务复杂度增加时表现更为突出。

2603.15854 2026-05-14 cs.LG cs.AI cs.CL

FlashSampling: Fast and Memory-Efficient Exact Sampling

Tomas Ruiz, Zhen Qin, Yifan Zhang, Xuyang Shen, Yiran Zhong, Mengdi Wang

发表机构 * LMU Munich（慕尼黑大学）； Princeton University（普林斯顿大学）

AI总结本文提出了一种名为 FlashSampling 的高效精确采样方法，旨在解决大词汇量解码中采样操作带来的额外内存流量和计算开销问题。该方法将采样过程直接融合到语言模型的输出层矩阵乘法中，避免了显存中 logits 张量的显式存储，从而显著提升了内存效率和计算速度。实验表明，FlashSampling 在多种数据中心级 GPU 上实现了内核级别的性能提升，并在端到端的 vLLM 框架中将每个输出 token 的生成时间减少了最多 10%。

Comments Project Page: https://github.com/FlashSampling/FlashSampling

2603.13054 2026-05-14 cs.CV

Topo-R1: Detecting Topological Anomalies via Vision-Language Models

Meilong Xu, Qingqiao Hu, Xiaoling Hu, Shahira Abousamra, Xin Yu, Weimin Lyu, Kehan Qi, Dimitris Samaras, Chao Chen

发表机构 * Stony Brook University（石溪大学）； Massachusetts General Hospital and Harvard Medical School（麻省总医院和哈佛医学院）； Stanford University（斯坦福大学）； Penn State University（宾夕法尼亚州立大学）

AI总结该研究探讨了如何利用视觉-语言模型（VLMs）检测管状网络结构中的拓扑异常，如血管、神经纤维和道路网络中的连接断裂、虚假连接、分支缺失或多余等问题。研究发现现有VLMs在拓扑感知方面表现较差，几乎随机。为此，作者构建了一个包含多样化拓扑扰动的大型基准数据集，并提出Topo-R1模型，通过结合定位、分类和结构保真度的复合奖励机制，显著提升了模型在拓扑异常检测任务中的性能，优于通用VLMs并接近监督学习方法。

Comments 26 pages, 6 figures

2603.10305 2026-05-14 cs.LG physics.ao-ph

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler

发表机构 * Department of Earth System Science（地球系统科学系）； University of California, Irvine（加州大学伊维福分校）； Department of Computing and Data Science（计算与数据科学系）； Boston University（波士顿大学）； The Center for Atmosphere Ocean Science（大气海洋科学中心）； New York University（纽约大学）； NVIDIA Corporation（NVIDIA公司）； Faculty of Geosciences and Environment（地球科学与环境学院）； University of Lausanne（洛桑大学）； Expertise Center for Climate Extremes（极端气候专家中心）

AI总结该研究提出了一种基于数据驱动的积分核方法，用于可解释的非局部算子学习，旨在解决气候模型中非局部信息整合带来的可解释性差和过拟合问题。通过将非局部信息聚合与局部非线性预测分离，该方法利用可学习的积分核对时空特征进行加权整合，从而显著减少模型参数并提高可解释性。实验表明，在南亚季风降水预测任务中，该框架在保持预测性能的同时大幅降低了模型复杂度。

Comments Presented at Climate Informatics 2026 (14 pages, 5 figures, 1 table)

2603.07433 2026-05-14 cs.LG cs.CV

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria

发表机构 * National University of Singapore（新加坡国立大学）； Nanjing University（南京大学）； Nanyang Technological University（南洋理工大学）

AI总结该论文提出了一种名为Data Agent的端到端动态数据选择框架，旨在通过在线训练中优先选择信息量大的样本来加速模型训练。其核心方法是将数据选择建模为一个与训练过程相关的序列决策问题，通过结合损失和置信度的复合奖励机制，学习一个与模型优化协同进化的样本选择策略。实验表明，Data Agent在多个数据集和模型架构上均能有效提升训练效率并保持或提升性能，且具有良好的通用性和鲁棒性，适用于多种实际场景。

2603.05582 2026-05-14 cs.LG cs.CV

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione

发表机构 * LTCI, Télécom Paris, Institut Polytechnique de Paris, France（法国巴黎电信学院（LTCI）、巴黎理工学院）

AI总结本文探讨了如何从常规训练的深度学习模型中提取无偏的子网络，以减少算法中的偏见。研究提出了一种名为BISE的方法，无需额外数据或重新训练，即可通过剪枝技术识别并分离出模型中已存在的“无偏”子网络。该方法在保持模型性能的同时降低了对有偏特征的依赖，为高效的偏见缓解提供了结构化适应的新途径。实验表明，该方法在多个基准数据集上表现出优越的性能和计算效率。

Comments This work has been accepted for publication at the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026

2603.05094 2026-05-14 cs.SD

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin, Ke-Han Lu, Wenze Ren, Xie Chen, Hung-yi Lee

发表机构 * National Taiwan University（国立台湾大学）； Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出TW-Sound580K，一个通过验证-生成-批评（VGC）流程构建的台湾地区音频-文本指令数据集，旨在解决大型音频-语言模型在处理本地化方言韵律时因缺乏专用语料而表现不佳的问题。该数据集利用双ASR验证筛选出522,000个原始音频片段，并扩展为580,000对高质量指令对。基于该数据集训练的Tai-LALM模型在TAU基准测试中取得了49.1%的准确率，较零样本基线提升了6.5%，验证了结合区域性语料与严格筛选及动态仲裁策略对提升本地化语音任务性能的有效性。

2603.03295 2026-05-14 cs.CL cs.AI cs.CY

Language Model Goal Selection Differs from Humans' in a Self-Directed Learning Task

Gaia Molinaro, Dave August, Danielle Perszyk, Anne G. E. Collins

发表机构 * University of California, Berkeley（加州大学伯克利分校）； Amazon AGI Lab（亚马逊人工智能实验室）

AI总结该研究探讨了大型语言模型（LLMs）在自主学习任务中选择目标的行为是否与人类一致。通过对比五种主流模型与人类的表现，发现模型在目标选择上与人类存在显著差异，多数模型倾向于依赖单一解决方案或表现出较低的学习灵活性，而人类则表现出更大的探索性和个体多样性。研究指出，尽管思维链推理和角色引导能略微改善模型表现，但当前模型仍难以准确反映人类目标选择的独特性，提示在相关应用中需谨慎替代人类决策。

2603.02337 2026-05-14 cs.LG cs.AI cs.CV

Preconditioned Flow Matching

Shadab Ahamed, Eshed Gal, Md Shahriar Rahim Siddiqui, Simon Ghyselincks, Moshe Eliasof, Eldad Haber

发表机构 * University of British Columbia（不列颠哥伦比亚大学）； University of Cambridge（剑桥大学）

AI总结本文研究了流匹配（Flow Matching）方法在训练过程中遇到的几何优化瓶颈问题，即当中间分布的协方差矩阵病态时，梯度下降方法在不同方向上的收敛速度差异显著。为此，作者提出了一种预条件流匹配（Preconditioned Flow Matching）方法，通过将目标分布转换为更各向同性的表示，改善中间路径的条件数，从而提升模型训练效率和生成质量。实验表明，该方法在多种分布和高分辨率图像数据集上均取得了显著的性能提升。

Comments 34 pages, 16 figures, 5 tables

2603.02175 2026-05-14 cs.CV cs.AI

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

发表机构 * Show Lab, National University of Singapore（展示实验室，新加坡国立大学）

AI总结本文提出了一种名为 Kiwi-Edit 的通用视频编辑方法，通过指令和参考图像的联合引导实现更精确的视觉控制。为了解决现有方法在数据稀缺情况下的性能瓶颈，研究者设计了一种可扩展的数据生成管道，构建了大规模的 RefVIE 数据集和评估基准 RefVIE-Bench。基于该数据集，提出的统一编辑架构 Kiwi-Edit 通过可学习的查询与潜在视觉特征融合，实现了对参考语义的精准引导，在指令遵循和参考保真度方面取得了显著提升，达到了可控视频编辑的最新水平。

Comments Project page: https://showlab.github.io/Kiwi-Edit Huggingface Demo: https://huggingface.co/spaces/linyq/KiwiEdit

2602.23089 2026-05-14 cs.LG

Physics-informed neural particle flow for the Bayesian update step

Domonkos Csuzdi, Tamás Bécsi, Olivér Törő

发表机构 * Department of Control for Transportation and Vehicle Systems, Faculty of Transportation Engineering and Vehicle Engineering, Budapest University of Technology and Economics（交通运输与车辆系统控制系，交通运输工程与车辆工程学院，布达佩斯技术与经济大学）

AI总结本文提出了一种物理感知的神经粒子流方法，用于解决高维非线性估计中的贝叶斯更新步骤的计算难题。该方法通过将先验到后验的对数同伦轨迹与密度演化连续方程相结合，推导出一个主控偏微分方程，并将其作为物理约束嵌入损失函数中，训练神经网络近似传输速度场，从而实现无需真实后验样本的无监督训练。实验表明，该方法在多模态基准和复杂非线性场景中表现出更优的模式覆盖能力和鲁棒性。

2602.23013 2026-05-14 cs.CV cs.LG

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Camile Lendering, Erkut Akdag, Egor Bondarev

发表机构 * AIMS Group, Department of Electrical Engineering, Eindhoven University of Technology（AIMS组，电气工程系，埃因霍温理工大学）

AI总结本文提出了一种无需训练的少样本异常检测方法SubspaceAD，通过子空间建模实现工业视觉检测中的异常识别。该方法首先利用冻结的DINOv2模型从少量正常样本中提取块级特征，然后通过主成分分析（PCA）拟合这些特征以估计正常变化的低维子空间，在推理阶段通过重构残差检测异常，生成可解释且统计可靠的异常分数。实验表明，SubspaceAD在多个数据集上取得了当前最优的性能，尤其在单样本设置下表现出色。

Comments Accepted to CVPR 2026. Revised version with corrected AU-PRO evaluation and recomputed metrics

2602.22474 2026-05-14 cs.RO cs.LG

When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

Jessie Yuan, Yilin Wu, Andrea Bajcsy

发表机构 * Carnegie Mellon University（卡内基梅隆大学）

AI总结本文研究了如何在部署时通过策略引导（policy steering）使机器人行为更适应任务需求，提出了一种基于不确定性的策略引导框架UPS。该方法结合视觉语言模型（VLM）与预训练策略，通过顾及任务语义不确定性和动作可行性，选择执行动作、澄清任务或请求干预等策略，以提升引导性能。研究还利用符合性预测校准模型，并通过残差学习持续改进策略，实验表明该方法在减少用户干预方面优于现有方法。

Comments To appear in Robotics: Science and Systems 2026

2602.22455 2026-05-14 cs.CV

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Giuseppe Lando, Rosario Forte, Antonino Furnari

发表机构 * Department of Mathematics and Computer Science, University of Catania, Italy（数学与计算机科学系，卡塔尼亚大学，意大利）

AI总结本文研究了在边缘设备上使用多模态大语言模型（MLLMs）进行实时在线情景记忆问答的可行性。为应对隐私和延迟问题，作者设计了一个包含两个异步线程的问答流水线，分别用于视频到文本的轻量级描述生成和基于文本的记忆推理。实验表明，在资源受限的边缘设备上，该方法取得了与云端解决方案相当的性能，展示了边缘计算在隐私保护情景记忆检索中的潜力。

2602.21204 2026-05-14 cs.LG cs.AI cs.CV

Test-Time Training with KV Binding Is Secretly Linear Attention

Junchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li

发表机构 * NVIDIA, Toronto, Ontario, Canada（NVIDIA，多伦多，安大略省，加拿大）； University of Toronto, Toronto, Ontario, Canada（多伦多大学，多伦多，安大略省，加拿大）； Vector Institute, Toronto, Ontario, Canada（向量研究所，多伦多，安大略省，加拿大）； Technion -- Israel Institute of Technology, Haifa, Israel（技术ion -- 以色列理工学院，海法，以色列）

AI总结本文重新审视了基于键值绑定的测试时训练（TTT）在序列建模中的作用，指出其本质并非单纯的测试时记忆，而是一种学习到的线性注意力机制。研究揭示了TTT模型中一些之前难以解释的现象，并展示了多种TTT架构可以统一为线性注意力操作的形式。这一新视角不仅解释了模型行为，还带来了架构简化、并行计算和效率提升等实际优势，为TTT提供了更系统和高效的理论基础。

Comments ICML 2026, Webpage: https://research.nvidia.com/labs/sil/projects/tttla/

2602.20150 2026-05-14 cs.RO cs.CV

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Wei-Cheng Huang, Jiaheng Han, Xiaohan Ye, Zherong Pan, Kris Hauser

发表机构 * Meta Reality Labs（Meta现实实验室）

AI总结本文研究如何从真实世界观测中估计可用于仿真的复杂场景，解决现有方法在处理多物体交互场景时计算成本高、鲁棒性差的问题。作者提出了一种基于物理约束的联合形状与姿态优化方法，结合可微分接触模型和高效求解器，实现了对多刚体物体几何与姿态的联合优化。该方法构建了端到端的SPARCS系统，能够鲁棒地重建出符合物理规律的仿真可用场景，实验表明其在包含多达5个物体和22个凸包的复杂场景中表现优异。

Comments Accepted to RSS 2026, camera-ready version; 17 pages, 15 figures

2602.14200 2026-05-14 cs.LG

TS-Haystack: A Multi-Task Retrieval Benchmark for Long-Context Time-Series Reasoning

Nicolas Zumarraga, Thomas Kaar, Ning Wang, William Tennien, Alpay Hasanli, Max Rosenblattl, Fan Wu, Kevin Riehl, Maxwell A. Xu, Markus Kreft, Kevin O'Sullivan, Elgar Fleisch, Paul Schmiedmayer, Robert Jakob, Patrick Langer

发表机构 * Agentic Systems Lab, ETH Zurich（1 非常规系统实验室，苏黎世联邦理工学院）； Stanford University（2 斯坦福大学）； Traffic Engineering Group, Institute for Transport Planning and Systems, ETH Zurich（3 交通工程组，交通规划与系统研究所，苏黎世联邦理工学院）； University of Illinois Urbana-Champaign（4 印第安纳大学厄巴纳-香槟分校）； Google（5 谷歌）； Centre for Digital Health Interventions, ETH Zurich（6 数字健康干预中心，苏黎世联邦理工学院）； Centre for Digital Health Interventions, University of St. Gallen（7 数字健康干预中心，圣加尔登大学）

AI总结本文提出 TS-Haystack，一个用于评估时间序列语言模型（TSLMs）在长上下文推理能力的多任务检索基准，涵盖从100秒到24小时的多领域事件导向问答任务，包括直接检索、时间推理、多步推理和上下文异常检测。现有 TSLMs 在处理长序列时表现出严重性能下降，而采用专门时间序列分类工具的智能检索框架在10项任务中有9项表现优于或接近当前最优模型，表明智能检索是提升长上下文时间序列推理的有效方法。

Comments Workshop version of this paper published at ICLR TSALM 2026. Benchmark generation code and datasets: https://github.com/AI-X-Labs/TS-Haystack

2602.13215 2026-05-14 cs.AI

When to Think Fast and Slow? AMOR: Adaptive Entropy Gate for Hybrid Models

Haoran Zheng, Chen Shani

发表机构 * The University of Chicago（芝加哥大学）； Stanford University（斯坦福大学）

AI总结本文提出了一种名为AMOR的自适应混合模型架构，旨在根据预测不确定性动态选择性地调用注意力机制，从而在保持模型性能的同时提升计算效率。该方法通过熵门控机制，在递归主干模型的输出熵超过动态阈值时才激活注意力模块，避免了不必要的计算开销。实验表明，AMOR在多个大规模模型上表现优异，仅在约22%的输入位置使用注意力，同时在长上下文任务和常识推理任务中展现出更强的鲁棒性。

2602.13155 2026-05-14 cs.LG cs.DS cs.NE stat.ML

Learning to Approximate Uniform Facility Location via Graph Neural Networks

Chendi Qian, Christopher Morris, Stefanie Jegelka, Christian Sohler

发表机构 * RWTH Aachen University, Germany（亚琛工业大学，德国）； Technical University of Munich, Germany（慕尼黑技术大学，德国）； Massachusetts Institute of Technology, USA（麻省理工学院，美国）； University of Cologne, Germany（科隆大学，德国）

AI总结本文研究了在统一设施选址问题（UniFL）中如何通过图神经网络（GNN）实现高效的近似求解。作者提出了一种全微分的图神经网络方法，结合经典近似算法的思想，无需求解器监督或离散松弛，从而在保证理论近似比的同时提升了算法性能。该方法在实验中表现优于传统近似算法，缩小了与整数线性规划的性能差距。

Comments ICML 2026

2602.12026 2026-05-14 cs.LG q-bio.QM

Protein Circuit Tracing via Cross-layer Transcoders

Darin Tsui, Kunal Talreja, Daniel Saeedi, Amirali Aghazadeh

发表机构 * School of Electrical ； Computer Engineering, Georgia Institute of Technology, Atltanta, GA

AI总结该研究提出了一种名为ProtoMech的框架，用于揭示蛋白质语言模型（pLMs）中的计算电路，通过跨层转码器学习各层之间的稀疏潜在表示，从而捕捉模型的整体计算流程。该方法应用于ESM2模型后，在蛋白质家族分类和功能预测任务中恢复了82-89%的原始性能，并识别出仅使用不到1%潜在空间却保留高达79%模型精度的压缩电路，揭示了与结构和功能模体的对应关系。该成果为蛋白质功能设计提供了高效且精准的指导，显著优于现有方法。

Comments Accepted into ICML 2026. 32 pages, 17 figures

2602.11618 2026-05-14 cs.LG q-bio.QM

How Well Do Large-Scale Chemical Language Models Transfer to Downstream Tasks?

Tatsuya Sagawa, Ryosuke Kojima

发表机构 * Graduate School of Pharmaceutical Sciences, Kyoto University（京都大学药学研究科）； RIKEN BDR（理化学研究所BDR）； Graduate School of Medicine, Kyoto University（京都大学医学研究科）

AI总结本文研究了大规模化学语言模型（CLMs）在下游分子属性预测任务中的迁移性能。通过扩展训练资源（如模型规模、数据集大小和计算量），作者系统评估了预训练损失与下游任务表现之间的关系，发现尽管预训练损失持续下降，下游任务性能提升有限。研究还揭示了预训练指标与实际任务表现之间的差距，并分析了影响迁移效果的任务依赖性失效模式，强调了在模型选择和评估中需考虑下游任务特性的必要性。

2602.10326 2026-05-14 cs.CV cs.LG

Flow Matching with Uncertainty Quantification and Guidance

Juyeop Han, Lukas Lao Beyer, Sertac Karaman

发表机构 * MIT（麻省理工学院）

AI总结尽管基于采样的生成模型如流匹配在图像生成方面取得了显著成功，但生成的样本质量仍可能存在不一致或退化的问题。为此，本文提出了一种轻量级的不确定性感知流匹配（UA-Flow）方法，该方法在预测速度场的同时估计异方差不确定性，并通过流动态传播不确定性以评估每个样本的可靠性。实验表明，UA-Flow 生成的不确定性信号与样本保真度具有更高的相关性，且基于不确定性的引导采样进一步提升了生成质量。

AI 大模型

视觉与机器人

科学与医疗