arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2603.29475 2026-05-14 cs.LG

Survival In-Context: Amortized Bayesian Survival Analysis via Prior-Fitted Networks

Dmitrii Seletkov, Paul Hager, Georgios Kaissis, Rickmer Braren, Daniel Rueckert, Raphael Rehms

发表机构 * Institute of Diagnostic and Interventional Radiology, Technical University of Munich, Germany（慕尼黑技术大学诊断与介入放射学研究所，德国）； Chair for AI in Healthcare and Medicine, Technical University of Munich, Germany（慕尼黑技术大学医疗人工智能与医学研究所，德国）； Hasso Plattner Institute for Digital Engineering, University of Potsdam, Germany（波茨坦大学数字工程哈索普兰特纳研究所，德国）； University Hospital Hamburg-Eppendorf, Germany（汉堡-埃彭多夫大学医院，德国）； Department of Computing, Imperial College London, UK（伦敦帝国理工学院计算系，英国）； Munich Center for Machine Learning (MCML), Germany（慕尼黑机器学习中心（MCML），德国）

AI总结该论文提出了一种名为Survival In-Context（SIC）的先验拟合生存分析模型，旨在解决医疗等领域中生存数据分析面临的数据量小、存在截尾现象以及协变量异质性等问题。该方法通过构建一个可控的生存先验生成框架，结合基于合成数据的预训练，实现了无需任务特定训练或超参数调整的个体化生存预测。实验表明，SIC在多个真实生存数据集上表现优异，尤其在小到中等规模数据集上优于传统和深度生存模型，展示了先验拟合范式在生存分析中的潜力。

2603.27910 2026-05-14 cs.AI cs.IR cs.MA

GAAMA: Graph Augmented Associative Memory for Agents

Swarna Kamal Paul, Shubhendu Sharma, Nitin Sareen

发表机构 * Nagarro（Nagarro公司）

AI总结 GAAMA 是一种用于智能体的图增强关联记忆系统，旨在解决多会话交互中长期记忆保持的问题。该方法通过构建一个由事件、事实、反思和概念节点组成的结构化知识图谱，结合基于余弦相似度的检索与边类型感知的个性化PageRank算法，有效避免了传统方法中的结构关系丢失和中心节点效应问题。实验表明，GAAMA 在多个任务中均优于现有方法，尤其在长对话场景下表现更为突出。

2603.24649 2026-05-14 cs.CV

MedOpenClaw and MedFlowBench: Auditing Medical Agents in Full-Study Workflows

Weixiang Shen, Chengzhi Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Xiao Han, Zongyue Li, Jingpei Wu, Min Xu, Daguang Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan

发表机构 * Technical University of Munich（慕尼黑技术大学）； TUM University Hospital（TUM大学医院）； LMU Munich（慕尼黑大学）； Imperial College London（伦敦帝国理工学院）； University of Oxford（牛津大学）； Carnegie Mellon University（卡内基梅隆大学）； NVIDIA（NVIDIA公司）； National University of Singapore（新加坡国立大学）； Munich Center for Machine Learning（慕尼黑机器学习中心）

AI总结该研究指出当前医学影像评估基准过于关注预选的2D图像，未能反映真实临床工作流程中的复杂任务。为此，研究者提出了MedFlowBench和MedOpenClaw，前者是一个完整的医学影像研究评估基准，后者是一个可控的医学影像软件运行环境，用于评估视觉语言模型在完整研究中的表现。实验表明，仅凭最终答案的评分会高估模型性能，而真实任务中模型还需生成可审计的证据，才能正确完成复杂流程。

Comments 33 pages

2603.24002 2026-05-14 cs.LG

Stochastic Dimension-Free Zeroth-Order Estimator for High-Dimensional and High-Order PINNs

Zhangyong Liang, Huanhuan Gao

发表机构 * Tianjin University National Center for Applied Mathematics（天津大学应用数学中心）； Jilin University School of Mechanical and Aerospace Engineering（吉林大学机械与 aerospace 工程学院）

AI总结该论文针对高维高阶物理信息神经网络（PINNs）训练中面临的计算复杂度和内存消耗过高的问题，提出了一种无维度依赖的零阶优化估计器SDZE。该方法通过引入共同随机数同步技术，有效消除了零阶优化中的方差爆炸问题，并结合隐式无矩阵子空间投影技术，显著降低了参数探索的方差和内存占用。实验表明，SDZE能够在单块GPU上高效训练千万维的PINNs，大幅提升了计算速度和内存效率。

Comments arXiv admin note: text overlap with arXiv:2412.00088, arXiv:2410.08989, arXiv:2307.12306 by other authors

2603.23777 2026-05-14 cs.RO cs.AI cs.SY eess.SY

Human-in-the-Loop Pareto Optimization: Trade-off Characterization for Assist-as-Needed Training and Performance Evaluation

Harun Tolasa, Volkan Patoglu

发表机构 * Faculty of Engineering and Natural Sciences（工程与自然科学学院）

AI总结在人类运动技能训练和康复过程中，任务难度与用户表现之间存在内在权衡关系，准确刻画这一权衡对评估表现、设计按需辅助（AAN）方案至关重要。本文提出了一种基于人机闭环的帕累托优化方法，结合定量性能指标和定性挑战度指标，系统高效地刻画任务表现与感知挑战水平之间的权衡关系。通过用户实验和三个应用场景验证，该方法不仅可用于设计和评估AAN训练方案，还能在不同辅助水平下公平评估个体训练进展和用户间表现差异。

Comments Under review for publication in IEEE Transactions on Haptics

详情

DOI: 10.1109/TOH.2026.3679965

英文摘要

During human motor skill training and physical rehabilitation, there is an inherent trade-off between task difficulty and user performance. Characterizing this trade-off is crucial for evaluating user performance, designing assist-as-needed (AAN) protocols, and assessing the efficacy of training protocols. In this study, we propose a novel human-in-the-loop (HiL) Pareto optimization approach to characterize the trade-off between task performance and the perceived challenge level of motor learning or rehabilitation tasks. We adapt Bayesian multi-criteria optimization to systematically and efficiently perform HiL Pareto characterizations. Our HiL optimization employs a hybrid model that measures performance with a quantitative metric, while the perceived challenge level is captured with a qualitative metric. We demonstrate the feasibility of the proposed HiL Pareto characterization through a user study. Furthermore, we present the utility of the framework through three use cases in the context of a manual skill training task with haptic feedback. First, we demonstrate how the characterized trade-off can be used to design a sample AAN training protocol for a motor learning task and to evaluate the group-level efficacy of the proposed AAN protocol relative to a baseline adaptive assistance protocol. Second, we demonstrate that individual-level comparisons of the trade-offs characterized before and after the training session enable fair evaluation of training progress under different assistance levels. This evaluation method is more general than standard performance evaluations, as it can provide insights even when users cannot perform the task without assistance. Third, we show that the characterized trade-offs also enable fair performance comparisons among different users, as they capture the best possible performance of each user under all feasible assistance levels.

URL PDF HTML ☆

赞 0 踩 0

2603.22273 2026-05-14 cs.LG

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Zakaria Mhammedi, James Cohan

发表机构 * Google Research, NYC（谷歌研究，纽约市）

AI总结本文提出了一种将探索与策略优化解耦的新方法，旨在解决强化学习中困难探索问题。该方法采用基于不确定性的树搜索策略，无需依赖传统强化学习框架，从而显著提高了探索效率。实验表明，该方法在多个硬探索任务中表现优异，并能通过监督学习将探索轨迹转化为高性能策略，且无需领域知识或专家示范。

2603.22267 2026-05-14 cs.CL cs.AI eess.AS

TiCo: Time-Controllable Spoken Dialogue Model

Kai-Wei Chang, Wei-Chih Chen, En-Pei Hu, Hung-yi Lee, James Glass

发表机构 * MIT（麻省理工学院）； NTU（国立台湾大学）； NTU AI-CoRE（国立台湾大学AI-CoRE）

AI总结本文提出 TiCo，一种可控制时间的语音对话模型，能够根据时间约束指令（如“生成约15秒的回应”）生成时长可控的语音响应。为解决现有模型缺乏时间感知能力的问题，研究引入了 TiCo-Bench 作为首个评估时间可控性的基准，并通过语音时间标记（STM）帮助模型在生成过程中估计已用时间并调整内容以满足目标时长。实验表明，TiCo 在不依赖问答对数据的情况下，通过自生成和可验证奖励的强化学习进行高效微调，显著提升了时长控制精度，同时保持了响应质量。

2603.19185 2026-05-14 cs.LG

MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data

Masoumeh Shafieinejad, Xi He, Mahshid Alinoori, John Jewell, Sana Ayromlou, Wei Pang, Veronica Chatrath, Gauri Sharma, Deval Pandya

发表机构 * Vector Institute

AI总结本文研究了基于扩散模型生成的合成表格数据在隐私保护方面的性能，特别是其对成员推理攻击（MIA）的抵抗能力。针对表格数据的异质性和复杂性，研究探索了多种目标模型用于成员推理攻击，并提出了专门针对这些扩散模型的黑盒和白盒攻击方法，为评估其隐私效果提供了全面的实验基础。该研究为理解生成模型在隐私安全方面的潜力与局限提供了重要参考。

Comments 4 page, 1 table

2603.05093 2026-05-14 cs.LG cs.AI cs.CV

From Baselines to Transport Geodesics: Axiomatic Attribution via Optimal Generative Flows

Cenwei Zhang, Lin Zhu, Manxi Lin, Lei You

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Aalto University（艾尔沃斯大学）； Alibaba（阿里巴巴）； Technical University of Denmark（丹麦技术大学）

AI总结该论文研究了特征归因中的路径选择问题，提出了一种基于最优生成流的归因方法。不同于传统的手工设计路径或模型敏感性几何，作者通过最小化运输过程中的动能作用，从数据生成过程中自动选择归因路径，从而获得更稳定和结构化的解释。研究证明了Aumann-Shapley积分在固定路径下的唯一性，并通过Rectified Flow等方法实现了该理论的近似，实验表明新方法在保持删除忠实度的同时提升了归因的稳定性。

Comments 10 figures, 31 pages

2602.22847 2026-05-14 cs.LG cs.AI stat.ML

Decentralized Ranking Aggregation via Gossip: Convergence and Robustness

Kerrian Le Caillec, Anna Van Elst, Igor Colin, Stephan Clémençon

发表机构 * LTCI, Télécom-Paris, Institut Polytechnique de Paris（LTCI， Télécom-Paris，法国巴黎理工学院）

AI总结本文研究了在去中心化网络环境中实现可靠且鲁棒的排名共识的问题，提出了一种基于随机闲聊（gossip）通信机制的方法，使各节点仅通过局部交互即可计算全局排名共识，无需中心协调。该方法在保证收敛性的同时，增强了对恶意节点的鲁棒性，并降低了通信成本，为分布式偏好分析提供了新的解决方案。

Comments 33 pages, 5 figures

2602.22251 2026-05-14 cs.LG cond-mat.mtrl-sci cs.AI

Zatom-1: Towards a Multimodal Foundation Model for 3D Molecules and Materials

Alex Morehead, Miruna Cretu, Antonia Panescu, Rishabh Anand, Maurice Weiler, Tynan Perez, Samuel Blau, Steven Farrell, Wahid Bhimji, Anubhav Jain, Hrushikesh Sahasrabuddhe, Pietro Lio, Tommi Jaakkola, Rafael Gomez-Bombarelli, Rex Ying, N. Benjamin Erichson, Michael W. Mahoney

发表机构 * LBNL（劳伦斯伯克利国家实验室）； ICSI（国际计算机科学研究所）； University of Cambridge（剑桥大学）； Yale University（耶鲁大学）； MIT（麻省理工学院）； UC Berkeley（加州大学伯克利分校）

AI总结该研究提出了一种名为 Zatom-1 的通用基础模型，旨在统一3D分子和材料的生成与预测任务。该模型基于简化版的Transformer架构，通过多模态流匹配目标联合建模离散原子类型和连续3D结构，实现了跨领域、多任务的学习能力。实验表明，Zatom-1 在生成和预测性能上均优于现有专门模型，并显著提升了生成推理速度，同时展示了从材料生成预训练中向分子属性预测的正向迁移效果。

Comments 38 pages, 10 figures, 15 tables. ICLR 2026 FM4Science. Code, data, and model weights are available at https://github.com/Zatom-AI/zatom

2602.17555 2026-05-14 cs.CV

GraphThinker: Reinforcing Temporally Grounded Video Reasoning with Event Graph Thinking

Zixu Cheng, Da Li, Jian Hu, Yuhang Zang, Ziquan Liu, Shaogang Gong, Wei Li

发表机构 * Queen Mary University of London（伦敦玛丽女王大学）； Samsung AI Centre Cambridge（剑桥三星人工智能中心）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Nanyang Technological University（南洋理工大学）

AI总结视频推理需要对视频中对象和事件之间的时序依赖和事件级关系进行细粒度理解。当前多模态大语言模型在视频推理中容易产生严重的时序幻觉，其根本原因在于视觉-时序对齐较弱且缺乏对事件关系的显式结构建模。为此，本文提出GraphThinker，一种通过强化微调构建结构化事件表示并加强视觉对齐的视频推理方法，有效减少了推理过程中的幻觉问题。实验表明，该方法在多个基准数据集上均取得了显著的性能提升。

Comments Under review

2602.16246 2026-05-14 cs.AI

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Yun-Shiuan Chuang, Chaitanya Kulkarni, Alec Chiu, Avinash Thangali, Zijie Pan, Shivani Shekhar, Yirou Ge, Yixi Li, Uma Kona, Linsey Pang, Prakhar Mehrotra

发表机构 * PayPal AI

AI总结该研究提出了一种基于代理状态的评估方法，用于评估多轮工具调用的大型语言模型代理系统。该方法通过LLM模拟器生成结构化的代理状态，无需依赖确定性后端，从而降低了构建和迭代成本。实验表明，该框架能够稳定区分不同模型，并在不同推理条件下保持评估一致性，同时支持对用户角色的敏感性分析，具有较高的自动化评估可靠性。

2602.07458 2026-05-14 cs.CV

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang

发表机构 * Harbin Institute of Technology, Shenzhen（哈尔滨工业大学（深圳））； The Hong Kong University of Science and Technology（香港科学与技术大学）； Tsinghua Shenzhen International Graduate School, Tsinghua University（清华大学深圳国际研究生学院，清华大学）

AI总结在线强化学习（RL）为复杂图像编辑提供了前景，但目前受限于可靠且细粒度奖励信号的缺乏。本文提出 SpatialReward，一种通过显式空间推理增强评估准确性的奖励模型，有效解决了现有评估器在跨图像比较和细粒度细节捕捉上的“注意力坍塌”问题。该模型基于预测的编辑区域进行像素级验证，显著提升了评估效果，并在多个基准测试中取得领先性能，同时作为在线RL的强效信号，显著提升了图像生成模型的表现。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2602.07342 2026-05-14 cs.AI

SupChain-Bench: Benchmarking Large Language Models for Real-World Supply Chain Management

Shengyue Guan, Yihao Liu, Lang Cao

发表机构 * Alibaba Group（阿里巴巴集团）； Peking University（北京大学）； University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结本文提出SupChain-Bench，一个用于评估大语言模型在真实供应链管理场景中表现的统一基准，重点考察模型在领域知识和基于标准操作流程的长期多步骤任务执行能力。研究发现当前模型在执行可靠性方面存在较大差距，并提出了一种无需依赖标准操作流程的SupChain-ReAct框架，能够自主生成可执行的工具调用流程，取得了最稳定和出色的性能。该工作为研究真实场景下的长期任务协调提供了系统评估基准，并指出了当前供应链智能代理的改进空间。

2602.04804 2026-05-14 cs.CL

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang

发表机构 * New Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences (CASIA)（模式识别新实验室（NLPR）、自动化研究所、中国科学院（CASIA））； Nanjing University（南京大学）； The Hong Kong University of Science（香港科学大学）； Sichuan University（四川大学）； Peking University（北京大学）

AI总结 OmniSIFT 是一种针对多模态大语言模型（Omni-LLMs）设计的模态非对称token压缩框架，旨在解决其在处理多模态序列时计算开销大的问题。该方法采用两阶段压缩策略，分别对视频和音频模态进行精细化压缩，通过端到端优化提升效率。实验表明，OmniSIFT 在多个基准测试中表现优异，仅引入少量参数即可显著降低推理延迟，且在部分任务上甚至超越了完整token模型的性能。

Comments [ICML 2026] Code Link: https://github.com/dingyue772/OmniSIFT

2602.03429 2026-05-14 cs.AI cs.CL cs.HC cs.LG

DiscoverLLM: From Executing Intents to Discovering Them

Tae Soo Kim, Yoonjoo Lee, Jaesang Yu, John Joon Young Chung, Juho Kim

发表机构 * University of Michigan（密歇根大学）

AI总结为了处理模糊和开放式的用户请求，研究提出DiscoverLLM框架，训练大语言模型帮助用户形成和发现其尚未明确的意图。该方法引入了一个新型用户模拟器，通过分层意图建模用户的认知状态，并利用意图的具体化程度作为奖励信号进行模型训练，使模型能够在意图不明确时主动探索，意图明确时快速收敛。实验表明，DiscoverLLM在多个交互任务中显著提升了任务完成效率，并减少了对话长度，同时在用户研究中也表现出更高的满意度和效率。

Comments Accepted at ICML 2026

2602.02560 2026-05-14 cs.LG cs.AI cs.CV

Auditing Sybil: Explaining Deep Lung Cancer Risk Prediction Through Generative Interventional Attributions

Bartlomiej Sobieski, Jakub Grzywaczewski, Karol Dobiczek, Mateusz Wójcik, Tomasz Bartczak, Patryk Szatkowski, Przemysław Bombiński, Matthew Tivnan, Przemyslaw Biecek

发表机构 * National Lung Screening Trial Research Team（国家肺癌筛查试验研究组）

AI总结该研究针对深度学习模型Sybil在肺部癌症风险预测中的决策机制进行因果验证，提出了一个模型无关的审计框架S(H)NAP。该方法通过生成干预性归因，结合专家放射科医生的验证，系统分析模型对风险评分的因果贡献。研究发现，尽管Sybil在很多情况下表现类似专家，但其仍存在对临床无关伪影过度敏感和径向偏差等关键失效模式。

Comments ICML 2026

2602.01629 2026-05-14 cs.LG cs.RO cs.SY eess.SY

AdaptNC: Adaptive Nonconformity Scores for Conformal Prediction under Distribution Shift

Renukanandan Tumu, Aditya Singh, Rahul Mangharam

发表机构 * Department of Electrical and Systems Engineering, University of Pennsylvania（宾夕法尼亚大学电气与系统工程系）

AI总结本文研究了在分布偏移环境下如何提升共形预测（Conformal Prediction）的不确定性量化能力。传统共形预测依赖于数据交换性假设，但在实际机器人系统中这一假设常被违反，导致预测区域过于保守。为此，作者提出AdaptNC框架，同时在线调整非一致性得分函数参数和共形阈值，通过自适应加权和回放缓冲机制提升预测效率与稳定性。实验表明，AdaptNC在多个机器人基准任务中显著减少了预测区域体积，同时保持目标覆盖率。

2601.22868 2026-05-14 cs.CV cs.LG

Conditional Compatibility Learning for Context-Dependent Anomaly Detection

Shashank Mishra, Didier Stricker, Jason Rambach

发表机构 * German Research Center for Artificial Intelligence (DFKI)（德国人工智能研究中心（DFKI））； RPTU Kaiserslautern（科布伦茨-莱茵威达大学（RPTU）基尔伯恩）

AI总结该论文研究了上下文相关的异常检测问题，即同一对象在不同场景下可能表现出正常或异常的差异。传统方法通常假设异常是对象本身的属性，而本文指出这种假设在现实场景中并不成立。为此，作者提出了条件兼容性学习（Conditional Compatibility Learning）方法，通过分离对象和上下文的表示，并利用文本条件注意力机制进行融合，构建了CC-CLIP模型，在多个现实场景的异常检测任务中取得了显著优于现有方法的性能。

Comments Preprint. 9 pages main text, plus appendix

2601.21975 2026-05-14 cs.AI cs.ET

Mind the Gap: How Elicitation Protocols Shape the Stated-Revealed Preference Gap in Language Models

Pranav Mahajan, Ihor Kendiukhov, Syed Hussain, Lydia Nottingham

发表机构 * University of Oxford（牛津大学）； Max Planck Institute for Biological Cybernetics（生物信息学Max Planck研究所）； University of Tuebingen（图宾根大学）； Cardiff University（卡迪夫大学）； Cambridge–Boston Alignment Initiative (CBAI)（剑桥-波士顿对齐倡议）

AI总结该研究探讨了语言模型中陈述偏好与揭示偏好之间的差距（SvR gap），并分析了不同偏好获取协议对此差距的影响。研究发现，允许在陈述偏好过程中表达中立或弃权可以提升偏好相关性，但若在揭示偏好中也允许弃权，则可能导致相关性显著下降。研究强调，偏好获取方法需考虑不确定偏好，以更准确地评估模型的真实价值倾向。

Comments Accepted to ACL 2026 Eval Eval Workshop and 3rd Technical AI Safety Conference (TAIS 2026)

2601.21366 2026-05-14 cs.LG math.OC

Perceptrons and localization of attention's mean-field landscape

Antonio Álvarez-López, Borjan Geshkovski, Domènec Ruiz-Balet

发表机构 * Universidad Autónoma de Madrid（马德里自治大学）； Laboratoire Jacques-Louis Lions Inria & Sorbonne Université（雅克-路易-洛伦斯实验室 Inria & 巴黎索邦大学）； Universitat de Barcelona（巴塞罗那大学）

AI总结本文研究了Transformer模型中感知机模块在注意力机制均场景观中的作用，将前向传播过程建模为单位球面上的相互作用粒子系统。通过分析权重设置下的梯度流和无限上下文长度的均场极限，发现临界点通常具有原子性和在球面子集上的局部化特性，揭示了注意力机制在高维空间中的结构特征。

2601.21033 2026-05-14 cs.LG

Predict-Project-Renoise: Sampling Diffusion Models under Hard Constraints

Omer Rochman-Sharabi, Gilles Louppe

发表机构 * University of Liège（利根大学）

AI总结扩散模型难以满足严格的约束条件，而物理科学中的许多应用则需要精确满足守恒定律、边界条件和观测一致性。本文提出了一种名为Predict-Project-Renoise（PPR）的算法，通过迭代地利用去噪器进行投影并结合前向扩散核重新引入噪声，从而在预训练扩散模型中实现对硬约束的采样。该方法在多个实验中表现出色，能够在保持分布保真度的同时显著降低约束违反程度，是现有方法所无法实现的。

Comments Code coming soon

2601.20239 2026-05-14 cs.RO

TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance

Zhemeng Zhang, Jiahua Ma, Xincheng Yang, Xin Wen, Yuzhi Zhang, Boyan Li, Yiran Qin, Jin Liu, Can Zhao, Li Kang, Haoqin Hong, Zhenfei Yin, Philip Torr, Hao Su, Ruimao Zhang, Daolin Ma

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Xense Robotics（Xense机器人公司）； Sun Yat-sen University（中山大学）； Oxford（牛津大学）； Shanghai AI Laboratory（上海人工智能实验室）； University of Science and Technology of China（中国科学技术大学）； UCSD（加州大学圣地亚哥分校）

AI总结本文提出了一种名为TouchGuide的新方法，通过触觉引导在推理阶段对视觉运动策略进行引导，以提升机器人对精细和高接触任务的操控能力。该方法结合预训练的视觉运动策略与任务特定的接触物理模型（CPM），在低维动作空间中融合视觉与触觉信息，从而生成符合物理接触约束的精细动作。此外，研究还引入了TacUMI数据采集系统，以高效、低成本地获取可靠的触觉数据，实验表明TouchGuide在多个复杂任务中显著优于现有方法。

2601.18608 2026-05-14 cs.AI cs.LG

PolySHAP: Extending KernelSHAP with Interaction-Informed Polynomial Regression

Fabian Fumagalli, R. Teal Witter, Christopher Musco

发表机构 * Bielefeld University（比勒菲尔德大学）； Claremont McKenna College（克莱蒙特麦肯纳学院）； New York University（纽约大学）

AI总结本文提出了一种名为 PolySHAP 的新方法，通过引入高阶多项式回归扩展了 KernelSHAP 算法，以更准确地捕捉特征之间的非线性交互作用，从而提升对 Shapley 值的估计效果。研究证明了 PolySHAP 在多个基准数据集上具有更好的实证表现，并且其估计结果具有一致性。此外，该方法还揭示了配对采样（antithetic sampling）与二阶 PolySHAP 之间的理论联系，为这一广泛使用的改进方法提供了首个坚实的理论依据。

Comments Published at ICLR 2026: https://openreview.net/forum?id=M19J8UGguq

2512.20211 2026-05-14 cs.SD eess.AS eess.SP

Aliasing-Free Neural Audio Synthesis

Yicheng Gu, Junan Zhang, Chaoren Wang, Jerry Li, Zhizheng Wu, Lauri Juvela

发表机构 * Aalto University School of Science（阿alto大学科学学院）； Aalto University（阿alto大学）； School of Data Science, The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳）数据科学学院）； Spellbrush, Akihabara, Tokyo（东京秋叶原Spellbrush）

AI总结在神经音频合成中，现有模型在生成高质量音乐和人声演唱时常因非线性激活函数和上采样层引入严重的混叠伪影而表现不足。本文将可微分的抗混叠技术引入激活和上采样模块，提出Pupu-Vocoder和Pupu-Codec模型，有效提升了音频重建质量。实验表明，新模型在音乐、人声演唱和通用音频任务中优于现有系统，在语音任务上也保持了相近性能。

Comments Accepted by TASLP

2512.16767 2026-05-14 cs.CV

Make-It-Poseable: Feed-forward Latent Posing Model for 3D Characters

Zhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Zhenxun Yuan, Wengang Zhou, Houqiang Li

发表机构 * EEIS Department University of Science（电子信息科学系中国科学技术大学）； Tencent PCG Shenzhen China（腾讯PCG深圳中国）； Tencent PCG New York USA（腾讯PCG纽约美国）； Tencent PCG Beijing China（腾讯PCG北京中国）； University of Science（中国科学技术大学）； Tencent PCG（腾讯PCG）

AI总结本文提出了一种名为 Make-It-Poseable 的新型前馈框架，用于解决3D角色姿态生成中的关键问题，如皮肤权重不准确、网格拓扑固定和姿态不匹配等。该方法将角色姿态生成重新定义为一种无需皮肤绑定的潜在空间变换问题，通过在紧凑的潜在表示上操作，实现了对目标姿态的高效重建。该框架结合了潜在姿态变换器、密集姿态表示和自适应补全模块，能够处理拓扑变化并展现出优异的零样本泛化能力，适用于多种形态的角色和3D创作任务。

Comments Project page: https://jasongzy.github.io/Make-It-Poseable/

2512.10931 2026-05-14 cs.LG cs.CL

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

George Yakushev, Nataliia Babina, Masoud Vahid Dastgerdi, Vyacheslav Zhdanovskiy, Denis Kuznedelev, Alina Shutova, Max Ryabinin

发表机构 * Yandex ； HSE University（俄罗斯高等经济大学）； The University of Tokyo（东京大学）； MATS ； Together AI

AI总结许多最先进的大型语言模型在回答问题前需要进行推理，但这种顺序交互方式限制了其在实时场景中的应用。本文提出了一种无需额外训练的方法，使具备推理能力的模型能够像人类一样异步进行思考、监听和输出。通过利用位置嵌入的特性，模型可以同时进行多任务处理，显著提升了响应速度和交互效率。

Comments Preprint, work in progress

2512.09972 2026-05-14 cs.LG cs.CL cs.NE

AP-BMM: Approximating Capability-Cost Pareto Sets of LLMs via Asynchronous Prior-Guided Bayesian Model Merging

Kesheng Chen, Yamin Hu, Zhenqian Zhu, Yiya Diao, Wenjian Luo

发表机构 * Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies（广东新型安全智能技术重点实验室）； Institute of Cyberspace Security（网络空间安全研究院）； School of Computer Science and Technology（计算机科学与技术学院）

AI总结在大型语言模型（LLMs）部署中，推理能力与推理成本之间的权衡是一个重要问题。本文提出了一种异步先验引导的贝叶斯模型合并方法（AP-BMM），通过层-wise合并策略，结合参数和推理激活差异来指导搜索过程，并利用异步优化提升计算效率。该方法在固定评估预算下，能够生成更高质量且覆盖范围更广的精度-成本帕累托前沿集，优于同步优化和传统模型级合并方法。

2511.17001 2026-05-14 cs.RO

Unify Robot Actions in Camera Frame

Sicheng Xie, Lingchen Meng, Zijie Diao, Haidong Cao, Zhiying Du, Shuyuan Tu, Jiaqi Leng, Qiuyue Wang, Mingsheng Li, Shuai Bai, Zuxuan Wu, Yu-Gang Jiang

发表机构 * Institute of Trustworthy Embodied AI, Fudan University（可信具身人工智能研究院，复旦大学）； Shanghai Innovation Institute（上海创新研究院）； Qwen Team, Alibaba Inc.（通义实验室，阿里巴巴公司）

AI总结本文研究了跨机器人平台动作表示的一致性问题，提出了一种基于相机外参的统一动作表示方法，使单臂和双臂机器人等不同形态的机器人动作在相机坐标系下具有相同的几何语义。为了解决现有数据集缺乏相机外参标注的问题，作者提出了一个无需训练、跨机器人平台的标注方法CalibAll，通过从粗到细的校准策略，实现了高精度的相机外参估计，并生成标准化的动作表示。实验表明，基于相机帧动作的跨平台预训练在多个任务中取得了最先进的性能。

AI 大模型

视觉与机器人

科学与医疗