arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12965 2026-05-14 cs.LG cs.NA math.NA

U-HNO: A U-shaped Hybrid Neural Operator with Sparse-Point Adaptive Routing for Non-stationary PDE Dynamics

Yingzhe Ma, Xiao Yang, Yuxin Xie, Zihan Xiong, Jinliang Liu

发表机构 * University of Electronic Science and Technology of China（电子科技大学）； Peking University（北京大学）

AI总结该研究针对偏微分方程（PDE）解中同时存在的全局平滑传输与局部尖锐特征的挑战，提出了一种名为U-HNO的U型混合神经算子。其核心方法是引入稀疏点自适应路由（SPAR），通过逐像素的硬掩码动态选择全局傅里叶分支或局部多尺度高斯分支，从而在不同区域灵活融合全局与局部计算。实验表明，U-HNO在多个PDE基准任务中取得了领先的预测精度，尤其在具有尖锐局部特征的问题上表现突出。

Comments 26 pages, 7 figures

详情

英文摘要

Solutions to many partial differential equations (PDEs) display coexisting smooth global transport and localized sharp features within a single trajectory: shock fronts, thin interfaces, and concentrated high-frequency content sit on top of slowly varying backgrounds. This poses a challenge for neural operators: Fourier-based architectures mix nonlocal interactions efficiently but tend to under-resolve localized non-smooth features, whereas spatially local architectures recover fine detail at the cost of long-range propagation and rollout stability. Existing hybrid operators paper over this tension with a fixed, spatially uniform fusion that forces the same trade-off everywhere. We propose U-HNO, a U-shaped hybrid neural operator whose central design is Sparse-Point Adaptive Routing (SPAR): at every spatial location, a per-pixel hard mask selects whether the global Fourier branch or the local multi-scale Gaussian branch should dominate, and the sparsity ratio is a function of the local contrast of the routing signal, so smooth and shock-aligned regions receive different mixtures of global and local computation. SPAR is embedded in a hierarchical encoder-bottleneck-decoder backbone with skip connections so that the dual branches and the gate operate at every resolution. Training combines pointwise supervision with a finite-difference H^1 gradient term and a band-wise spectral consistency regularizer. Across benchmarks spanning 1D Burgers, Kuramoto-Sivashinsky, KdV, 2D advection, Allen-Cahn, Navier-Stokes, Darcy flow, and 3D transonic compressible Navier-Stokes from PDEBench, U-HNO achieves state-of-the-art rollout accuracy on the majority of tasks in both relative L^2 and H^1 metrics, with the largest gains on problems dominated by sharp localized features. Ablations show that removing any single component substantially degrades rollout error.

URL PDF HTML ☆

赞 0 踩 0

2605.12963 2026-05-14 cs.AI

Sustaining AI safety: Control-theoretic external impossibility, intrinsic necessity, and structural requirements

James M. Mazzu

发表机构 * Digie Inc.（Digie公司）

AI总结随着AI系统能力的增强，安全策略不仅需要降低当前风险，还必须确保在外部控制无法可靠约束系统行为时仍能维持安全。本文运用控制理论，从结构层面分析了外部强制安全策略是否可行，并提出了两个主要结论：一旦系统影响超出有限外部控制的应对范围，任何依赖外部控制的策略都无法持续保障AI安全；若仍存在可行策略，则这些策略必须是内在的，并需满足四个结构性要求，如安全目标的稳定性与自我修改兼容性等。本文为外部控制局限性的广泛担忧提供了形式化的理论框架。

2605.12957 2026-05-14 cs.CV

GTA: Advancing Image-to-3D World Generation via Geometry Then Appearance Video Diffusion

Hanxin Zhu, Cong Wang, Peiyan Tu, Jiayi Luo, Tianyu He, Xin Jin, Zhibo Chen

发表机构 * College of Information Science and Electronic Engineering, Zhejiang University（浙江大学信息科学与电子工程学院）

AI总结本文提出了一种名为GTA的新型图像到3D世界生成方法，采用“几何优先、再渲染外观”的策略，以提升生成场景的结构准确性和跨视角一致性。该方法通过两个阶段的视频扩散模型，首先生成粗略的几何结构，再基于预测的几何信息合成精细的外观细节。此外，研究引入了随机潜在码打乱策略和测试时缩放方案，进一步提升了生成质量与感知一致性。实验表明，GTA在保真度、视觉质量及几何精度方面优于现有方法，并可作为通用增强模块提升现有生成流程的效果。

2605.12954 2026-05-14 cs.CV cs.AI

AdaFocus: Adaptive Relevance-Diversity Sampling with Zero-Cache Look-back for Efficient Long Video Understanding

Xiao Yang, Yingzhe Ma, Haoxuan Yu, Zixin Li, Ning Qin

发表机构 * University of Electronic Science and Technology of China（电子科技大学）

AI总结 AdaFocus 是一种高效的长视频理解框架，旨在解决传统方法在时间覆盖、视觉细节与计算效率之间难以平衡的问题。该方法通过自适应相关性-多样性采样和零缓存回溯机制，实现对视频内容的渐进式证据获取，既减少了内存和计算开销，又保留了关键视觉细节。实验表明，AdaFocus 在多个基准数据集上实现了比现有方法更优的效率与精度平衡，显著提升了长视频理解任务的性能。

Comments 9 pages, 4 figures. Authors Xiao Yang and Yingzhe Ma contributed equally

详情

英文摘要

Long video understanding is heavily bottlenecked by a rigid one-shot paradigm: existing methods either densely encode videos at prohibitive memory and latency costs, or aggressively compress them into sparse frame sets that irreversibly discard fine-grained evidence needed for downstream reasoning. Consequently, current models struggle to simultaneously balance temporal coverage, visual details, and computational efficiency. We propose AdaFocus, an efficient framework that rethinks long-video understanding as progressive evidence acquisition rather than one-pass encoding. AdaFocus relies on two tightly coupled components. First, a Query-Aware Adaptive Relevance-Diversity sampler (AdaRD) produces a compact yet informative video preview, adaptively switching to global clustering when the query lacks reliable local grounding. Second, instead of caching exhaustive frame sequences in memory, AdaFocus introduces an uncertainty-triggered refinement mechanism. It performs targeted look-back only when the model is not confident, retrieving high-resolution evidence directly from disk via a zero-cache I/O design. This turns discarded visual details from an irreversible loss into on-demand recoverable evidence without paying the cost of exhaustive preloading. Experiments on seven standard long-video benchmarks show that AdaFocus delivers a substantially better efficiency-accuracy trade-off than strong baselines. Compared with conventional dense encoding, AdaFocus achieves improved task performance (e.g., +2.59 accuracy on VideoMME, +8.39 mIoU on Charades-STA over single-pass inference) while reducing visual token consumption by ~33x and eliminating the need for in-memory frame pre-caching through its zero-cache disk retrieval design. These findings suggest that progressive preview combined with zero-cache evidence refinement is a highly effective paradigm for scalable multimedia reasoning.

URL PDF HTML ☆

赞 0 踩 0

2605.12953 2026-05-14 cs.CV cs.AI

Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation

Chao Hao, Jun Xu, Ji Du, Shuo Ye, Ziyue Qiao, Xiaodong Cun, Guangcong Wang, Xubin Zheng, Zitong Yu

发表机构 * School of Computing and Information Technology（计算与信息科技学院）； Great Bay University（大湾大学）； Hangzhou International Innovation Institute（杭州国际创新研究院）； Beihang University（北航大学）； Department of Computing（计算系）； The Hong Kong Polytechnic University（香港理工大学）

AI总结本文提出了一种名为Seg-Agent的全新训练-free语言引导分割框架，旨在解决传统方法依赖大量训练数据的问题。该方法通过构建显式的多模态推理循环，使大型语言模型能够在视觉域内进行交互式推理，从而直接生成和优化分割结果。此外，研究还引入了Various-LangSeg基准，用于全面评估模型在不同场景下的泛化能力，实验表明Seg-Agent在无需参数更新的情况下即可达到先进训练方法的性能水平。

2605.12952 2026-05-14 cs.CV

Debunking Grad-ECLIP: A Comprehensive Study on Its Incorrectness and Fundamental Principles for Model Interpretation

Yongjin Cui, Xiaohui Fan

发表机构 * Zhejiang University（浙江大学）

AI总结本文对ICML 2024发表的Grad-ECLIP方法进行了全面分析，指出其并非基于中间特征的全新技术路线，而是与现有的注意力机制解释方法等价，且计算更为简洁。研究进一步揭示了Grad-ECLIP方法的缺陷，表明其生成的模型解释结果与原模型实际行为不一致，并提出了模型解释应遵循的两个基本原则，以避免类似错误。

2605.12945 2026-05-14 cs.LG

Separating Shortcut Transition from Cross-Family OOD Failure in a Minimal Model

Hongmin Li

发表机构 * School of Life Science and Technology, Institute of Science Tokyo（生命科学与技术学院，科学东京研究所）； Department of Computational Biology and Medical Sciences, Graduate School of Frontier Sciences（计算生物学与医学科学系，前沿科学研究生院）

AI总结该研究探讨了在最小模型中区分“捷径特征”与“跨家族分布外（OOD）失败”之间的关系。通过构建包含一个不变坐标和一个家族依赖的捷径坐标的二分类模型，研究揭示了在确定性条件下，正的捷径相关性会引导经验风险最小化（ERM）偏向捷径特征，但岭正则化能保持分类器对不变特征的依赖，从而避免确定性的OOD失败。当不变坐标存在噪声时，模型会在训练中的捷径信号超过不变信号时切换到捷径规则，其是否导致失败取决于测试家族的特性。该模型清晰地区分了捷径吸引、捷径规则切换与跨家族OOD失败之间的机制。

Comments 14 pages, 3 figures

2605.12944 2026-05-14 cs.LG cs.CL

From Instance Selection to Fixed-Pool Data Recipe Search for Supervised Fine-Tuning

Haodong Wu, Jiahao Zhang, Lijie Hu, Yongqi Zhang

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科学与技术大学（广州））； Mohamed bin Zayed University of Artificial Intelligence（莫扎伊德大学人工智能学院）

AI总结该研究关注监督微调（SFT）数据选择问题，提出了一种新的固定池数据配方搜索方法，旨在从原始指令池中构建高质量的训练子集。不同于传统的实例排序方法，该方法通过一系列过滤、混合和去重操作组合成数据配方，以优化数据分布。研究引入了AutoSelection算法，通过解耦任务、数据和模型信号，结合暖启动探针、局部配方编辑和高斯过程辅助排名等技术，在有限的全量评估预算下高效搜索最优数据配方，实验表明其在多个模型和任务上均优于现有方法。

2605.12943 2026-05-14 cs.LG

Reinforced Collaboration in Multi-Agent Flow Networks

Zheng Wang, Yuang Liu, Yangkai Ding

发表机构 * Huawei Technologies Co., Ltd.（华为技术有限公司）

AI总结多智能体系统通过将复杂任务分解为多个子任务，为扩展大语言模型提供了有效途径。然而，子任务之间的错误传播和协作流程设计不合理常导致整体性能下降。为此，本文提出MANGO框架，通过构建历史成功工作流的流网络，结合强化学习和文本梯度，联合优化工作流路径与智能体行为，并引入跳过机制提升效率。实验表明，MANGO在多个基准上性能提升达12.8%，效率提高47.4%，并在未见领域表现出良好的泛化能力。

2605.12940 2026-05-14 cs.LG cs.AI

The Expressivity Boundary of Probabilistic Circuits: A Comparison with Large Language Models

Zhiyu Zhao, Xuejie Liu, Muhan Zhang, Anji Liu

发表机构 * School of Computing, National University of Singapore（新加坡国立大学计算机学院）； Institute for Artificial Intelligence, Peking University（北京大学人工智能研究院）； School of Intelligence Science and Technology, Peking University（北京大学智能科学与技术学院）

AI总结本文研究了概率电路（PCs）在生成语言模型中的表达能力边界，并与基于Transformer的大语言模型（LLMs）进行了对比。研究发现，PCs在自回归语言建模中仍存在表达能力上的不足，主要受限于输出参数化方式和上下文编码结构。通过引入logit空间参数化和分析结构分解PCs的依赖拓扑限制，作者揭示了PCs与LLMs之间的关键差异，并证明分解PCs在理论上具有更强的表达能力，但其有效优化仍是一个挑战。

2605.12939 2026-05-14 cs.CV

DirectTryOn: One-Step Virtual Try-On via Straightened Conditional Transport

Xianbing Sun, Jiahui Zhan, Liqing Zhang, Jianfu Zhang

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出了一种名为DirectTryOn的一站式虚拟试穿方法，通过直角条件传输实现高效生成。该方法基于对虚拟试穿任务条件约束特性的观察，提出通过纯条件传输、服装保持损失和自一致性损失等改进，引导生成过程更加直接，从而实现单步生成。实验表明，该方法在保证生成质量的同时显著降低了推理成本，达到了当前最先进的性能。

2605.12938 2026-05-14 cs.CV cs.AI cs.LG

CRePE: Curved Ray Expectation Positional Encoding for Unified-Camera-Controlled Video Generation

Seonghyun Jin, Youngmin Kim, Sunwoo Park, Jong Chul Ye

发表机构 * Graduate School of AI（人工智能研究生院）

AI总结该论文提出了一种名为CRePE的曲光线期望位置编码方法，用于统一相机控制的视频生成。针对现有方法在处理广角和鱼眼镜头等复杂相机配置时的不足，CRePE通过引入深度感知的位置分布，捕捉由宽视角相机引起的投影路径几何特性，从而提升相机控制的稳定性和生成质量。该方法结合几何注意力适配器和单目几何基础模型进行伪监督，实现了对多种相机模型的有效支持，并在多个几何感知和感知质量指标上表现出色。

Comments 17 pages, 8 figures, Under review

2605.12937 2026-05-14 cs.CV cs.AI cs.HC

AuraMask: An Extensible Pipeline for Developing Aesthetic Anti-Facial Recognition Image Filters

Jacob Lagogiannis, William Agnew, Rosa I. Arriaga, Sauvik Das

发表机构 * Franklin and Marshall College（弗兰克林与马歇尔学院）； Carnegie Mellon University（卡内基梅隆大学）； Georgia Institute of Technology（佐治亚理工学院）

AI总结本文提出了一种名为 AuraMask 的可扩展管道，用于开发既具有对抗性效果又符合审美要求的反人脸识别图像滤镜。该方法通过模仿流行的 Instagram 一键滤镜，生成了 40 种视觉上美观的滤镜，并在对抗开源人脸识别模型方面表现出优于现有方法的效果。实验表明，这些滤镜在用户接受度上也显著高于以往方法，为隐私保护技术的进一步研究提供了有效工具。

Comments 21 pages, 10 figures

2605.12933 2026-05-14 cs.CL

ATD-Trans: A Geographically Grounded Japanese-English Travelogue Translation Dataset

Shohei Higashiyama, Hiroki Ouchi, Atsushi Fujita, Masao Utiyama

发表机构 * National Institute of Information and Communications Technology（信息与通信技术国家研究所）； Nara Institute of Science and Technology（奈良科学技术研究所）

AI总结本文介绍了一个名为ATD-Trans的地理语境下的日英旅游游记平行语料库，旨在支持多语言地理信息的公平获取和机器翻译质量的评估。该数据集包含日本国内和海外地区的地理实体信息，可用于分析不同语言模型在翻译任务中的表现差异。研究发现，针对日语优化的模型在处理日本国内地理实体时具有优势，而这类实体的翻译难度较高。

2605.12928 2026-05-14 cs.LG

The Efficiency Gap in Byte Modeling

Celine Lee, Jing Nathan Yan, Chen Liang, Jiaxin Shi, Yin Zhang, Jeremiah Liu, Pengcheng Yin, Fernando Pereira, Ed Chi, Derek Cheng, Alexander M. Rush, Ruoxi Wang

发表机构 * Google DeepMind（谷歌深Mind）； Department of Computer Science, Cornell University（康奈尔大学计算机科学系）； Work done while at Google DeepMind（曾在谷歌深Mind工作）

AI总结本文研究了字节级语言模型在计算效率上的劣势，对比了其与传统自回归模型和掩码扩散模型在扩展性上的表现差异。通过计算匹配的扩展实验，发现字节建模在掩码扩散模型中的性能损失更为显著，原因在于其缺乏局部连续性，难以高效解析原始字节的语义。研究指出，未来在字节级建模中需引入替代的结构先验，以维持模型的可扩展性。

2605.12924 2026-05-14 cs.LG

IV-ICL: Bounding Causal Effects with Instrumental Variables via In-Context Learning

Vahid Balazadeh, Hamidreza Kamkari, Medha Barath, Ricardo Silva, Rahul G. Krishnan

发表机构 * University of Toronto（多伦多大学）； Vector Institute（向量研究所）； MIT CSAIL（麻省理工学院计算机科学与人工智能实验室）； University College London（伦敦大学学院）

AI总结该论文提出了一种基于工具变量的因果效应置信区间估计方法IV-ICL，通过上下文学习直接学习因果效应的边缘后验分布，并利用其分位数推导出因果效应的置信区间。与传统方法相比，IV-ICL避免了手动设计估计量的需求，同时克服了计算复杂度高和先验敏感等问题，能够在多种数据生成过程中更准确地覆盖识别集。实验表明，该方法在合成和半合成数据集上表现出更高的可靠性与信息量，且推理速度显著优于现有方法。

2605.12922 2026-05-14 cs.AI cs.CL

When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction

Vardhan Dongre, Joseph Hsieh, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Dilek Hakkani-Tür

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； Adobe Research（Adobe研究）

AI总结这篇论文研究了大型语言模型在多轮对话中逐渐丢失任务目标、角色设定和规则的现象。作者提出了一种“通道转换”机制，认为目标定义的标记在注意力机制中逐渐变得难以访问，而相关信息可能仍保留在残差表示中。通过引入“目标可访问性比率”（GAR）以及残差流探针等方法，研究揭示了不同模型在注意力关闭后表现出的多样化失效模式，并展示了残差表示在预测任务表现中的重要性。

2605.12919 2026-05-14 cs.CV

GuardMarkGS: Unified Ownership Tracing and Edit Deterrence for 3D Gaussian Splatting

Utae Jeong, Jaewan Choi, Junseok Lee, Jongheon Jeong, Sang Ho Yoon, ByoungSoo Koh, Sangpil Kim

发表机构 * Korea University（韩国大学）； KAIST（韩国科学技术院）； Hanshin University（汉西大学）

AI总结本文提出了一种名为 GuardMarkGS 的统一保护框架，旨在解决 3D Gaussian Splatting（3DGS）资产在版权归属追踪与防止未经授权编辑之间的双重风险。该方法结合了全局水印优化与对抗性编辑抑制策略，通过分离潜在特征、扰动编辑轨迹以及选择性增强对抗更新，实现了版权归属可追溯与编辑行为有效遏制的双重目标。实验表明，该框架在保持渲染质量的同时，有效平衡了水印准确性与编辑抑制效果。

Comments Preprint

2605.12918 2026-05-14 cs.CL

CommonWhy: A Dataset for Evaluating Entity-Based Causal Commonsense Reasoning in Large Language Models

Armin Toroghi, Faeze Moradi Kalarde, Scott Sanner

发表机构 * University of Toronto（多伦多大学）

AI总结为了有效与现实世界交互，大型语言模型（LLMs）需要具备基于实体的常识推理能力，这要求模型将具体实体的事实知识与常识推理相结合。本文提出CommonWhy数据集，包含15,000个“为什么”问题，用于评估模型在因果关系上的常识推理能力，并作为知识图谱问答（KGQA）的基准，所有问题答案均可在Wikidata中找到。与现有KGQA数据集不同，CommonWhy重点考察因果推理而非单纯的事实检索，实验表明当前先进模型在该任务上仍存在事实幻觉和因果推理失败等问题。

2605.12917 2026-05-14 cs.CV cs.LG

Adaptive Conformal Prediction for Reliable and Explainable Medical Image Classification

One Octadion, Novanto Yudistira, Lailil Muflikhah

发表机构 * Faculty of Computer Science, Universitas Brawijaya（博雅大学计算机科学学院）

AI总结该研究针对医学图像分类中深度学习模型过度自信的问题，提出了一种自适应的置信度预测方法，以提高诊断的可靠性和可解释性。通过改进RAPS方法，引入自适应Lambda准则，有效控制预测集的覆盖偏差，确保在不同输入难度下均保持较高的覆盖性能。实验表明，该方法在多个医学图像数据集上实现了高覆盖率与小预测集大小的平衡，且具有良好的跨领域泛化能力，适用于对安全性要求高的医疗AI应用。

Comments To appear in IEA/AIE 2026 (Springer LNAI)

2605.12913 2026-05-14 cs.LG

Revisiting DAgger in the Era of LLM-Agents

Changhao Li, Rushi Qiang, Jiawei Huang, Chenxiao Gao, Chao Zhang, Niao He, Bo Dai

发表机构 * Georgia Institute of Technology（佐治亚理工学院）； ETH Zurich（苏黎世联邦理工学院）

AI总结本文研究了在大语言模型代理（LLM-Agents）时代下如何改进长期任务的学习方法，针对现有监督微调和强化学习方法的不足，重新引入并改进了数据聚合（DAgger）算法。该方法通过在每一步骤中融合学生策略与教师策略生成轨迹，并利用教师提供的监督标签进行训练，从而有效缓解协变量偏移问题并提供丰富的反馈。实验表明，该方法在软件工程任务中显著提升了模型性能，优于现有主流方法。

2605.12904 2026-05-14 cs.LG

VIP-COP: Context Optimization for Tabular Foundation Models

Yilong Chen, Xueying Ding, Leman Akoglu

发表机构 * Carnegie Mellon University（卡内基梅隆大学）

AI总结表格基础模型（TFMs）在结构化数据的上下文学习中表现出色，但其性能受到上下文长度限制的制约，难以处理超出预训练规模的数据。本文提出VIP-COP方法，通过评估训练样本和特征对预测的重要性，实现对上下文的优化选择，有效抑制噪声并聚焦关键信息。该方法具备高效、预算感知、模型无关、可解释且鲁棒等优势，在多个大规模高维任务中显著优于现有方法，为表格基础模型的测试时上下文优化树立了新的标杆。

2605.12897 2026-05-14 cs.RO

DynoJEPP: Joint Estimation, Prediction and Planning in Dynamic Environments

Mikolaj Kliniewski, Jesse Morris, Yiduo Wang, Ian R. Manchester, Viorela Ila

发表机构 * Australian Centre For Robotics (ACFR)（澳大利亚机器人中心）； School of Aerospace, Mechanical and Mechatronic Engineering (AMME)（航空航天、机械与机电工程学院）

AI总结 DynoJEPP 是一个基于因子图的框架，旨在动态环境中联合优化状态估计、预测与路径规划。为了解决传统方法中预测和规划信息反馈导致估计污染和不安全行为的问题，DynoJEPP 引入了一种新型有向因子，以确保信息在因子图中的单向流动。实验表明，该方法对安全导航至关重要，而合作版 DynoJEPP 进一步支持机器人在预测和规划中融入协作对象的行为，提升了整体系统的鲁棒性与安全性。

2605.12894 2026-05-14 cs.AI cs.CL

Beyond Cooperative Simulators: Generating Realistic User Personas for Robust Evaluation of LLM Agents

Harshita Chopra, Kshitish Ghate, Aylin Caliskan, Tadayoshi Kohno, Chirag Shah, Natasha Jaques

发表机构 * University of Washington, Seattle, WA（华盛顿大学）； Georgetown University, Washington, DC（乔治城大学）

AI总结该研究旨在解决大型语言模型（LLM）代理在面对真实用户多样化行为时表现不佳的问题，提出了一种名为Persona Policies（PPol）的可插拔控制层，用于生成具有真实行为特征的用户角色，从而提升代理的鲁棒性。通过将角色生成建模为基于LLM的进化程序搜索，该方法优化Python生成器以发现符合任务目标的行为模式，并生成多样化的用户角色。实验表明，PPol显著提升了用户模拟的真实性与代理任务成功率，为基于模拟器的评估和训练提供了新的有效方法。

Comments Preprint under review

2605.12882 2026-05-14 cs.CL cs.CV

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

Dongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang, Wentao Zhang, Bin Wang, Conghui He

发表机构 * Peking University（北京大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）

AI总结 CiteVQA 是一个用于评估可信文档智能的新型基准，旨在解决当前文档问答系统中忽视证据溯源的问题。该基准要求模型在回答问题的同时提供具体的引用区域，从而同时评估答案的正确性和引用的准确性。通过引入严格归因准确率（SAA）指标，CiteVQA 揭示了现有大型语言模型在答案正确但引用错误方面的普遍问题，为提升文档理解系统的可靠性提供了新的评估工具。

2605.12879 2026-05-14 cs.LG

ASAP: Amortized Doubly-Stochastic Attention via Sliced Dual Projection

Huy Tran, Max Milkert, David Hyde

发表机构 * Vanderbilt University（范德比大学）

AI总结本文提出了一种名为ASAP的新方法，用于高效实现双重随机注意力机制。该方法结合了Sinkhorn缩放的训练优势和切片双投影的推理优化，通过在训练阶段学习参数映射，在推理阶段用固定操作替代迭代缩放，从而显著提升计算效率。实验表明，ASAP在保持低成本训练的同时，在语言和视觉任务中表现出与现有方法相当甚至更优的性能。

2605.12876 2026-05-14 cs.LG

Certified Robustness under Heterogeneous Perturbations via Hybrid Randomized Smoothing

Blaise Delattre, Hengyu Wu, Paul Caillon, Wei Yang Bryan Lim, Yang Cao

发表机构 * Department of Computer Science, School of Computing, Institute of Science Tokyo, Tokyo, Japan（东京科学研究所计算机科学系）； College of Computing and Data Science, Nanyang Technological University, Singapore（南洋理工大学计算机与数据科学学院）； PSL University, Paris, France（巴黎高等师范学院）

AI总结该论文研究了在异构扰动下如何为多模态模型提供认证鲁棒性的问题，提出了一种统一的随机平滑框架，能够处理离散和连续混合输入的联合扰动。通过分析离散与连续噪声的联合似然排序，该方法得到了一个严格推广图像和文本单独扰动认证的闭式一维鲁棒性证书。该框架在多模态安全过滤任务中得到了验证，提供了首个针对文本-图像交互依赖场景下联合离散和连续扰动的模型无关的Neyman-Pearson认证。

Comments ICML 2026. Code: https://github.com/tdsai-lab/hybrid-randomized-smoothing

2605.12874 2026-05-14 cs.LG

Descriptive Collision in Sparse Autoencoder Auto-Interpretability: When One Explanation Describes Many Features

Jordan F. McCann

发表机构 * Independent Researcher（独立研究者）

AI总结本文研究了稀疏自编码器（SAE）在语言模型解释性任务中的一种新问题——描述性碰撞，即多个不同的特征被赋予相同的自然语言解释。作者通过分析大量人工标注的SAE特征数据，发现同一解释常被重复使用，导致特征区分度下降。为此，他们提出了两个新的评估指标，用于修正现有方法对特征解释性的高估问题，从而提升自动解释性的准确性与可靠性。

Comments 11 pages, 2 figures, 3 tables

2605.12872 2026-05-14 cs.LG

SMA: Submodular Modality Aligner For Data Efficient Multimodal Learning

Truong Pham, Anay Majee, Rishabh Iyer

发表机构 * The University of Texas at Dallas（德克萨斯大学达拉斯分校）

AI总结尽管多模态基础模型在近期取得了显著进展，但它们依赖大量配对数据，限制了其在数据稀缺场景下的应用。本文提出了一种基于子模态互信息的组合式对齐方法——SMA，通过将多组增强和描述视为集合，捕捉更丰富的跨模态结构，从而在有限数据下实现更有效的多模态对齐。实验表明，SMA在少样本分类和检索任务中表现出色，仅需数万样本即可达到强多模态泛化能力，显著优于传统方法。

2605.12855 2026-05-14 cs.CV

Prediction of Rectal Cancer Regrowth from Longitudinal Endoscopy

Jorge Tapias Gomez, Despoina Kanata, Aneesh Rangnekar, Christina Lee, Hannah Williams, Hannah Thompson, J. Joshua Smith, Francisco Sanchez-Vega, Mert R. Sabuncu, Julio Garcia-Aguilar, Harini Veeraraghavan

发表机构 * Department of Medical Physics, Memorial Sloan Kettering Cancer Center（医学物理部，纪念斯隆凯特勒癌症中心）； School of Computer Science, Cornell University and Cornell Tech（计算机科学学院，康奈尔大学和康奈尔科技）； Department of Surgery, Colorectal Service, Memorial Sloan Kettering Cancer Center（外科部，结直肠服务，纪念斯隆凯特勒癌症中心）； Department of Radiology, Weill Cornell Medical College（放射科，韦尔医学院）； School of Electrical and Computer Engineering, Cornell University and Cornell Tech（电气与计算机工程学院，康奈尔大学和康奈尔科技）

AI总结该研究提出了一种基于纵向内镜图像的深度学习方法TREX，用于预测接受“观察等待”治疗的直肠癌患者肿瘤的复发情况。TREX通过结合治疗后复查和随访期间的图像，利用双交叉注意力机制和预训练的Swin Transformer模型，在无需图像配准的情况下提取并融合特征，从而区分完全缓解与局部复发。实验表明，TREX在复发检测和早期预警方面均优于现有方法，并在临床验证中表现出与专业医生相当的诊断准确性。

Comments 14 Pages, 9 figures, 2 tables

AI 大模型

视觉与机器人

科学与医疗