arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.14462 2026-05-15 cs.CV

Real2Sim in HOI: Toward Physically Plausible HOI Reconstruction from Monocular Videos

Yubo Zhao, Yujin Chai, Yunao Dong, Chengfeng Zhao, Zijiao Zeng, Yuan Liu, Chi-Keung Tang

发表机构 * The Hong Kong University of Science and Technology（香港科学与技术大学）； Tencent IEG（腾讯IEG）

AI总结本文研究如何从单目视频中重建具有物理合理性的4D人-物交互（HOI）动画，以支持3D内容生成和仿真学习等应用。为了解决现有方法在交互一致性、接触稳定性和物理合理性方面的不足，作者提出了HA-HOI框架，采用“以人为先，物体跟随”的策略，以人体运动为交互锚点，重建并优化物体的运动轨迹，并将其映射到物理仿真中进行验证。该方法在多个基准和真实视频上显著提升了人-物对齐、接触一致性及仿真适用性，推动了从视觉合理到物理合理的交互动画生成。

2605.14461 2026-05-15 cs.CV

ClickRemoval: An Interactive Open-Source Tool for Object Removal in Diffusion Models

Ledun Zhang, Yatu Ji, Xufei Zhuang, Xinying Yao

发表机构 * Inner Mongolia University of Technology（内蒙古科技大学）

AI总结 ClickRemoval 是一个基于预训练 Stable Diffusion 模型的开源交互式工具，旨在解决扩散模型中对象移除的难题。该工具仅需用户点击操作即可定位目标对象并修复背景，无需手动绘制掩码或输入文本描述。通过在去噪过程中进行自注意力调制，ClickRemoval 在复杂场景中实现了高效且自然的移除效果，实验表明其在定量指标和用户研究中均表现优异。

Comments 5 pages, 4 figures. Open-source software paper

2605.14458 2026-05-15 cs.AI

OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance

Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon

发表机构 * Samsung Research（三星研究院）

AI总结 OmniDrop 是一种用于多模态大语言模型的层间 token 剪枝方法，旨在解决高分辨率音频和视频输入导致的 token 爆炸问题。该方法通过在解码器各层逐步剪枝，而非在输入嵌入层进行，从而更有效地保留多模态信息融合，并利用文本查询指导剪枝过程以提升任务适应性。实验表明，OmniDrop 在多个基准测试中表现优异，显著降低了预填充延迟和内存消耗。

2605.14455 2026-05-15 cs.AI cs.LG

Intelligence Impact Quotient (IIQ): A Framework for Measuring Organizational AI Impact

Chandan Rajah, Neha Sengupta, Federico Castanedo, Robin Mills, Amit Bahree, Ramesh Krishnan Muthukrishnan, Larry Murray

发表机构 * Inception ； G42

AI总结本文提出了一种名为“智能影响商”（IIQ）的综合指标，用于量化人工智能系统在组织工作流程中的集成深度及其影响。IIQ结合了多种因素，如新颖性加权的令牌库存、使用频率、近期使用情况、组织杠杆效应、任务复杂度和自主性，生成可用于比较不同用户和单位的原始智能采纳指数（IAI）和标准化的0-1000分IIQ指数。该框架旨在为AI在工作流程中的部署提供一种可跟踪的测量工具，而非直接衡量模型能力或替代因果生产力评估。

2605.14454 2026-05-15 cs.LG cs.CL cs.CR

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

Minbeom Kim, Lesly Miculicich, Bhavana Dalvi Mishra, Mihir Parmar, Phillip Wallis, Bharath Chandrasekhar, Kyomin Jung, Tomas Pfister, Long T. Le

发表机构 * Google Cloud AI Research（谷歌云人工智能研究）

AI总结随着AI代理从聊天界面扩展到处理隐私数据、调用工具和执行多步骤工作流的系统，安全防护机制成为防止实际部署中危害的最后一道防线。传统防护机制难以应对复杂多变的现实场景，而LiSA（Lifelong Safety Adaptation）提出了一种保守策略归纳框架，通过结构化记忆提升固定基础防护策略的适应能力。LiSA能够将偶发的失败转化为可复用的策略抽象，结合冲突感知的本地规则和基于证据的置信度门控机制，有效提升在稀疏反馈和噪声环境下的安全性和泛化能力。

Comments 27 pages, 3 figures

2605.14449 2026-05-15 cs.LG cs.AI cs.CL

When Answers Stray from Questions: Hallucination Detection via Question-Answer Orthogonal Decomposition

Siyang Yao, Erhu Feng, Yubin Xia

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文研究了大语言模型中幻觉检测的问题，提出了一种名为QAOD的单次推理框架，通过将答案表示中与问题对齐的部分分解出去，提取出与问题正交的成分以抑制领域相关的变化。该方法结合多样性惩罚的费舍尔评分和判别神经元选择，设计了两种互补的探测策略，分别用于提升领域内检测性能和跨领域泛化能力，在多个基准测试中表现出色，尤其在跨领域场景下显著优于现有方法。

2605.14448 2026-05-15 cs.CV cs.CL cs.IR

Think When Needed: Adaptive Reasoning-Driven Multimodal Embeddings with a Dual-LoRA Architecture

Longxiang Zhang, Weilong Dai, Guanghao Zhang, Hao Jiang, Pipei Huang

发表机构 * Alibaba Group（阿里巴巴集团）

AI总结该研究提出了一种名为Think When Needed（TWN）的统一多模态嵌入框架，旨在通过自适应推理机制提升多模态嵌入的质量与效率。TWN采用双LoRA架构，将推理和嵌入适配器附加到共享的冻结主干模型上，以减少参数开销并避免梯度冲突。通过自监督路由门机制，模型能够根据输入内容决定是否生成链式推理（CoT），从而避免冗余推理带来的性能下降，并显著降低推理成本。实验表明，TWN在MMEB-V2的78个任务中取得了最先进的嵌入质量，同时在参数和推理效率方面优于现有生成式方法。

Comments 30 pages, preprint

2605.14445 2026-05-15 cs.LG

FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

Runyuan He, Qiuyang Mang, Shang Zhou, Kaiyuan Liu, Hanchen Li, Huanzhi Mao, Qizheng Zhang, Zerui Li, Bo Peng, Lufeng Cheng, Tianfu Fu, Yichuan Wang, Wenhao Chai, Jingbo Shang, Alex Dimakis, Joseph E. Gonzalez, Alvin Cheung

发表机构 * University of Washington（华盛顿大学）； Stanford University（斯坦福大学）； Princeton University（普林斯顿大学）； Massachusetts Institute of Technology（麻省理工学院）； Bespoke Labs（Bespoke实验室）

AI总结本文提出了一种名为FrontierSmith的系统，用于大规模合成开放性编程问题，以提升大型语言模型在开放性编码任务上的表现。该系统通过迭代演化方式，从现有的封闭性编程任务（如竞赛编程题目）生成开放性问题变体，并利用定量指标筛选出能激发多样化解题思路的问题。实验表明，使用该系统合成的数据进行训练，显著提升了模型在多个开放性编程基准测试中的性能。

2605.14443 2026-05-15 cs.AI cs.LG cs.MA

Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience

Krishna Sayana, Ketan Todi, Ambarish Jash

发表机构 * Google Research（谷歌研究）

AI总结该研究针对冻结的“黑盒”大语言模型（LLM）中的提示工程问题，提出了一种基于强化学习的框架，通过迭代经验蒸馏训练可学习的提示策略。该方法利用对比经验缓冲区，结合标量奖励和密集文本批评，使轻量级提示模型能够优化以最大化任务奖励，从而在单次策略权重中实现迭代提示的高效优化。实验表明，该方法在多步骤推理和工具使用任务中显著提升了性能，且相比现有进化基线方法具有更高的样本效率。

Comments 10 pages and reference, appendix

2605.14440 2026-05-15 cs.AI cs.FL cs.LO

Synthesizing POMDP Policies: Sampling Meets Model-checking via Learning

Debraj Chakraborty, Anirban Majumdar, Prince Mathew, Sayan Mukherjee, Jean-François Raskin

发表机构 * Nanyang Technological University, Singapore（新加坡南洋理工大学）； Tata Institute of Fundamental Research, Mumbai, India（印度孟买印度理工学院基础研究所以）； Université Libre de Bruxelles, Brussels, Belgium（比利时布鲁塞尔自由大学）； IITB Trust Lab, Department of CSE, IIT Bombay, Mumbai, India（印度孟买印度理工学院 Bombay 电子与计算机科学系信托实验室）

AI总结本文研究了在部分可观察马尔可夫决策过程（POMDP）中如何合成具有形式化保证的策略，针对采样方法缺乏形式正确性保证、形式合成方法可扩展性差的问题，提出了一种结合采样、自动机学习和模型检测的综合框架。该方法借鉴Angluin的$L^*$算法，利用采样作为成员查询，模型检测作为等价性查询，能够在采样策略满足正则性条件时合成有限状态控制器，并证明了该框架的相对完备性。实验表明，该方法在解决现有工具难以处理的阈值安全问题上表现良好。

Comments Paper accepted at 38th International Conference on Computer Aided Verification (CAV 2026), Lisbon, Portugal, July 2026

2605.14438 2026-05-15 cs.AI

BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

Juntong Wu, Jialiang Cheng, Qishen Yin, Yue Dai, Yuliang Yan, Fuyu Lv, Ou Dan, Li Yuan

发表机构 * Shenzhen Graduate School, Peking University（北京大学深圳研究生院）

AI总结 BEAM（二值专家激活掩码）是一种用于动态路由的新型方法，旨在提升Mixture-of-Experts（MoE）架构在大语言模型中的推理效率。该方法通过可训练的二值掩码实现对每个token的专家动态选择，结合直通估计器和辅助正则化损失，在端到端训练中诱导专家稀疏性，同时保持模型性能。实验表明，BEAM在保持超过98%原始模型性能的同时，显著减少了MoE层的计算量，提升了推理速度和吞吐量，是一种高效且易于集成的实用解决方案。

Comments 22 pages, 12 figures

2605.14427 2026-05-15 cs.CL cs.SD

A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR

Sunil Kumar Kopparapu

发表机构 * TCS Research（TCS研究）

AI总结本文提出了一种基于微积分的框架，用于确定端到端自动语音识别（ASR）系统中的词汇量大小。该方法通过拟合训练数据，并利用一阶和二阶导数测试原理，正式估计词汇量这一关键超参数。实验表明，该方法在标准Librispeech语料库上有效，能够优化词汇量选择，从而提升ASR系统的性能。本文的主要贡献在于为端到端ASR系统提供了确定词汇量大小的系统化方法。

Comments 8 pages, is an extension of the paper S. K. Kopparapu and A. Panda, A cost minimization approach to fix the vocabulary size in a tokenizer for an end-to-end ASR system, in Proceedings of the 2024 International Conference on Pattern Recognition, Kolkata, India, 2024

2605.14423 2026-05-15 cs.LG cs.AI

Collaborative Yet Personalized Policy Training: Single-Timescale Federated Actor-Critic

Leo Muxing Wang, Pengkun Yang, Lili Su

发表机构 * Northeastern University（东北大学）； Tsinghua University（清华大学）

AI总结本文研究了在异构环境中实现协作与个性化策略训练的问题，提出了一种单时间尺度的联邦演员-评论家框架。该方法通过共享一个公共的线性子空间表示，同时保留各智能体的个性化策略组件，实现了策略的协作优化与个性化平衡。理论分析表明，该方法在有限时间内具有收敛性，并且随着智能体数量的增加表现出线性加速效果，实验验证了其在联邦强化学习任务中的有效性。

详情

英文摘要

Despite the popularity of the actor-critic method and the practical needs of collaborative policy training, existing works typically either overlook environmental heterogeneity or give up personalization altogether by training a single shared policy across all agents. We consider a federated actor-critic framework in which agents share a common linear subspace representation while maintaining personalized local policy components, and agents iteratively estimate the common subspace, local critic heads, and local policies (i.e., actors). Under canonical single-timescale updates with Markovian sampling, we establish finite-time convergence via a novel joint linear approximation framework. Specifically, we show that the critic error converges to zero at the rate of $\tilde{\mathcal{O}}(1/((1-γ)^4\sqrt{TK}))$, and the policy gradient norm converges to zero at the rate of $\tilde{\mathcal{O}}(1/((1-γ)^6\sqrt{TK}))$, where $T$ is the number of rounds, $K$ is the number of agents, and $γ\in (0,1)$ is the discount factor. These results demonstrate linear speedup with respect to the number of agents $K$, despite heterogeneous Markovian trajectories under distinct transition kernels and coupled learning dynamics. To address these challenges, we develop a new perturbation analysis for the projected subspace updates and QR decomposition steps, together with conditional mixing arguments for heterogeneous Markovian noise. Furthermore, to handle the additional complications induced by policy updates and temporal dependence, we establish fine-grained characterizations of the discrepancies between function evaluations under Markovian sampling and under temporally frozen policies. Experiments instantiate the framework within PPO on federated \texttt{Hopper-v5} action-map heterogeneity, showing gains over Single PPO and FedAvg PPO and downstream transfer from the learned shared trunk.

URL PDF HTML ☆

赞 0 踩 0

2605.14422 2026-05-15 cs.LG

What if Tomorrow is the World Cup Final? Counterfactual Time Series Forecasting with Textual Conditions

Shuqi Gu, Yongxiang Zhao, Baoyu Jing, Kan Ren

发表机构 * School of Information Science and Technology, ShanghaiTech University, Shanghai, China（信息科学与技术学院，上海科技大学，上海，中国）； University of Illinois at Urbana-Champaign, Illinois, United States（伊利诺伊大学厄巴纳-香槟分校，伊利诺伊，美国）

AI总结本文研究了在文本条件下的反事实时间序列预测问题，旨在应对未来事件对时间序列预测的影响，提升预测模型在复杂和随机条件下的适应能力。为解决传统方法忽视反事实场景及条件结构单一的问题，作者提出了一个包含事实与反事实设置的综合评估框架，并设计了一种文本归因机制，用于区分可变与不可变因素，从而提高预测精度。该方法在无真实时间序列标签的情况下也能有效评估模型性能，具有重要的实际应用价值。

2605.14420 2026-05-15 cs.AI

DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping

Pengyun Zhu, Yuqi Ren, Zhen Wang, Lei Yang, Deyi Xiong

发表机构 * TJUNLP Lab, School of Computer Science and Technology, Tianjin University, China（天津大学计算机科学与技术学院 TJUNLP 实验室，中国）

AI总结当前大型语言模型（LLMs）通常依赖于粗粒度的国家标签进行多元价值观对齐，但这种宏观层面的监督往往掩盖了国家内部的价值观异质性，导致对齐效果松散。为此，研究提出DVMap框架，通过多维人口统计约束识别具有可预测、高共识价值观偏好的群体，实现细粒度的多元价值观对齐。该方法引入人口统计原型提取策略和结构化思维链机制，并结合群体相对策略优化技术，有效提升了模型在跨人口统计、跨国家和跨价值观场景下的泛化能力与鲁棒性。

Comments Accepted to the Main Conference of ACL 2026

2605.14416 2026-05-15 cs.AI

A Unified Knowledge Embedded Reinforcement Learning-based Framework for Generalized Capacitated Vehicle Routing Problems

Wen Wang, Xiangchen Wu, Liang Wang, Hao Hu, Xianping Tao

发表机构 * Nanjing University（南京大学）

AI总结本文提出了一种基于知识嵌入的强化学习统一框架，用于解决具有容量限制的车辆路径问题（CVRP）。该框架结合了路线优先、聚类次优的启发式策略，并引入动态规划解决子问题，同时利用历史增强的上下文处理模块应对分解带来的部分可观测性问题。实验表明，该方法在多种CVRP变体中均能取得优于现有学习方法的解质量，且与经典启发式方法的差距更小，展现出良好的泛化能力。

2605.14413 2026-05-15 cs.LG cs.AI

MahaVar: OOD Detection via Class-wise Mahalanobis Distance Variance under Neural Collapse

Donghwan Kim, Hyunsoo Yoon

发表机构 * Department of Industrial Engineering（工业工程系）； Yonsei University（延世大学）

AI总结该论文提出了一种基于类内马哈拉诺比斯距离方差的新型分布外检测方法MahaVar。研究发现，对于分布内样本，类内马哈拉诺比斯距离呈现出明显的尖锐最小值结构，导致类间距离方差较大，而分布外样本则表现出较弱的结构特征和较小的距离方差。基于这一现象并结合神经崩溃理论，作者提出了MahaVar方法，在传统马哈拉诺比斯距离基础上引入类内距离方差作为判别依据，有效提升了分布外检测性能，在多个基准数据集上取得了当前最优结果。

Comments 29 pages, 8 figures

2605.14411 2026-05-15 cs.RO cs.AI

Energy-Efficient Quadruped Locomotion with Compliant Feet

Pramod Pal, Shishir Kolathaya, Ashitava Ghosal

发表机构 * Department of Mechanical Engineering, Indian Institute of Science（印度科学研究院机械工程系）； Robert Bosch Centre for Cyber Physical Systems, Indian Institute of Science（印度科学研究院网络物理系统研究中心）； School of Engineering and Applied Science, Ahmedabad University（阿亨布尔大学工程与应用科学学院）

AI总结该研究探讨了具有柔顺足部的四足机器人能否在保证运动稳定性的同时提升运动效率。通过将足部柔顺性引入强化学习控制器，研究发现适中的足部刚度可以有效减少每米行走的机械能耗，实验表明相较于过于刚硬或过于柔软的足部，中间刚度的足部可使能耗降低约17%。这一结果表明，合理设计足部柔顺性有助于提高四足机器人的能量效率。

Comments 29 pages, 7 figures, supplemental videos link is mentioned in the paper

2605.14407 2026-05-15 cs.AI

Metis AI: The Overlooked Middle Zone Between AI-Native and World-Movers

Xiang Li

发表机构 * Massachusetts General Hospital（麻省总医院）

AI总结本文探讨了人工智能在数字任务中常被忽视的“中间地带”——Metis AI，这类任务虽可在计算机上完成，但因涉及机构、社会和规范层面的复杂性，难以被算法可靠自动化。研究提出了Metis AI的五个结构性特征，并指出应对策略应是人类主导、AI辅助的“半人马架构”，而非单纯提升自动化水平。

2605.14406 2026-05-15 cs.LG cs.CV

GeoViSTA: Geospatial Vision-Tabular Transformer for Multimodal Environment Representation

Yuhao Liu, Sadeer Al-Kindi, Ashok Veeraraghavan, Guha Balakrishnan

发表机构 * Department of Electrical and Computer Engineering, Rice University（理海大学电气与计算机工程系）； Center for Cardiovascular Computational and Precision Health, Department of Cardiology, DeBakey Heart and Vascular Center, Houston Methodist（休斯顿方法主义医疗中心心血管计算与精准健康中心、心内科部门、德贝基心脏和血管中心）

AI总结 GeoViSTA 是一种结合遥感图像和表格数据的多模态模型，旨在学习统一的地理空间表征。该模型通过双边交叉注意力机制，在图像和表格数据之间交换空间与语义信息，并借助地理感知的注意力机制对齐图像块与不规则的统计区域。GeoViSTA 在自监督的联合掩码重建任务中进行训练，显著提升了在疾病死亡率和火灾风险等关键任务上的预测性能，展示了其在综合地理空间推理中的强大能力。

2605.14405 2026-05-15 cs.LG math.DS

Watch your neighbors: Training statistically accurate chaotic systems with local phase space information

Joon-Hyuk Ko, Andrus Giraldo, Deok-Sun Lee

发表机构 * Center for AI and Natural Sciences（人工智能与自然科学中心）； School of Computational Sciences（计算科学学院）； Korea Institute for Advanced Study（韩国高级研究院）

AI总结该论文研究了如何通过局部相空间信息训练出统计上准确的混沌系统代理模型。作者提出了一种新框架，旨在结合精确的雅可比矩阵和长期统计特性，通过构建相空间中混沌吸引子的局部覆盖，并最小化代理模型与真实动力学在这些覆盖上的分布差异来训练模型。实验表明，该方法在提升雅可比矩阵准确性的同时，仍能与现有最先进的统计动力学学习方法保持竞争力。

2605.14404 2026-05-15 cs.CL

Knowledge Beyond Language: Bridging the Gap in Multilingual Machine Unlearning Evaluation

Kyomin Hwang, Hyeonjin Kim, Sangyeon Cho, Nojun Kwak

发表机构 * GSCST, Seoul National University（首尔国立大学GSCST）； AIIS, Seoul National University（首尔国立大学AIIS）； Department of Artificial Intelligence, Chung-Ang University（Chung-Ang大学人工智能系）； Korean Surgical Researcher Foundation, Republic of Korea（韩国外科研究员基金会）

AI总结随着大型语言模型在商业服务中的广泛应用，其可能引发的隐私泄露问题日益突出。本文针对多语言场景下的机器遗忘（MMU）评估不足的问题，提出了两个新的评估指标——知识可分性得分（KSS）和知识持续性得分（KPS），用于衡量多语言环境下信息去除的效果与一致性。研究通过这些指标对多种遗忘方法进行了评估，揭示了多语言机器遗忘中特有的现象，并为该领域的评估提供了新视角。

2605.14403 2026-05-15 cs.CV

DermAgent: A Self-Reflective Agentic System for Dermatological Image Analysis with Multi-Tool Reasoning and Traceable Decision-Making

Yize Liu, Siyuan Yan, Ming Hu, Lie Ju, Xieji Li, Feilong Tang, Wei Feng, Zongyuan Ge

发表机构 * AIM for Health Lab, Faculty of Information Technology, Monash University, Melbourne, Australia（健康人工智能实验室，信息科技学院，墨尔本大学，澳大利亚）； Faculty of Information Technology, Monash University, Melbourne, Australia（信息科技学院，墨尔本大学，澳大利亚）； University College London, Institute of Ophthalmology, London, United Kingdom（伦敦大学学院，眼科研究所，英国）

AI总结 DermAgent 是一个用于皮肤科图像分析的自反思智能代理系统，旨在解决现有多模态大语言模型在皮肤病诊断中领域知识不足和幻觉问题。该系统通过集成七个专业视觉与语言模块，在计划-执行-反思框架下实现可追溯的诊断推理，结合多工具协同推理与外部证据检索，有效提升了诊断准确性和可靠性。实验表明，DermAgent 在多个皮肤病基准测试中表现优异，显著优于现有先进模型。

Comments MICCAI2026 early acceptance

2605.14399 2026-05-15 cs.CV cs.GR

SceneForge: Structured World Supervision from 3D Interventions

Jizhizi Li, Jiayang Ao, Danny Wicks, Petru-Daniel Tudosiu

发表机构 * Canva Research（Canva研究院）

AI总结 SceneForge 是一个基于可编辑3D世界状态的干预驱动框架，旨在生成在场景编辑、视角变化和场景级干预下保持一致的结构化监督信号。该方法通过显式干预（如物体移除或相机变化）并传播其对场景结构和物理属性的影响，生成包括反事实观测、多视角观测及阴影、反射等效应感知信号在内的对齐输出。实验表明，SceneForge 能有效提升多任务学习中物体移除和场景移除的性能，为干预一致的多模态学习提供了可扩展的监督基础。

2605.14396 2026-05-15 cs.CV cs.CR cs.LG cs.RO

Systematic Discovery of Semantic Attacks in Online Map Construction through Conditional Diffusion

Chenyi Wang, Ruoyu Song, Raymond Muller, Jean-Philippe Monteuuis, Jonathan Petit, Z. Berkay Celik, Ryan Gerdes, Ming F. Li

发表机构 * University of Arizona（亚利桑那大学）； Purdue University（普渡大学）； Lawrence Livermore National Laboratory（劳伦斯利弗莫尔国家实验室）

AI总结自动驾驶车辆依赖在线高精度地图构建来感知车道边界、分隔线和人行横道等关键道路元素，这些元素直接影响运动规划的安全性。本文提出MIRAGE框架，通过条件扩散模型系统性地发现能够绕过对抗防御、导致地图预测退化的语义攻击，例如制造阴影或湿滑路面等合理环境变化。实验表明，MIRAGE生成的攻击在多个防御机制下仍具有强效，并且生成场景的现实感达到80-84%，远高于传统像素级攻击方法。

2605.14393 2026-05-15 cs.CV

Analogical Trajectory Transfer

Junho Kim, Eun Sun Lee, Gwangtak Bae, Seunggu Kang, Young Min Kim

发表机构 * Dept. of Electrical and Computer Engineering, Seoul National University（电子与计算机工程系，首尔国立大学）； Interdisciplinary Program in Artificial Intelligence and INMC, Seoul National University（人工智能交叉计划和INMC，首尔国立大学）

AI总结本文研究类比轨迹迁移问题，旨在将一个三维环境中的运动轨迹转换到另一个语义上相似但空间布局不同的环境中，从而实现机器的类比空间推理能力。为了解决场景间物体位置、尺度和布局差异带来的碰撞和几何失真问题，作者提出了一种基于场景聚类和分层映射预测的方法，通过分解问题并组合子问题的解，生成语义一致且空间连贯的轨迹转移结果。该方法无需训练，运行速度快，且在多个应用场景中优于基于大语言模型和场景图匹配的基线方法。

2605.14392 2026-05-15 cs.AI

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

Yucheng Shi, Zhenwen Liang, Kishan Panaganti, Dian Yu, Wenhao Yu, Haitao Mi

发表机构 * Tencent HY LLM（腾讯 HY LLM）

AI总结该研究提出了一种通过可验证环境合成实现自我进化的强化学习方法，使语言模型不仅能生成问题，还能构建用于训练自身的环境。核心方法是通过生成可执行的环境对象，实现问题采样、参考解计算与响应评分，并确保环境具有稳定的“解决-验证”不对称性，从而保证奖励信号的有效性。研究通过EvoEnv框架验证了该方法的有效性，在基准测试中实现了性能提升，表明模型的自我改进依赖于构建难度始终超越自身能力的环境，而非单纯增加合成数据量。

Comments Tech report, work in progress

2605.14391 2026-05-15 cs.CV

Dual-Latent Collaborative Decoding for Fidelity-Perception Balanced Image Compression

Qi Mao, Zijian Wang, Zhengxue Cheng, Lingyu Zhu, Siwei Ma

发表机构 * School of Information and Communication Engineering and the State Key Laboratory of Media Convergence and Communication, Communication University of China（信息与通信工程学院和媒体融合与通信国家重点实验室，中国通信大学）； School of Information Science and Electronic Engineering, Shanghai Jiao Tong University（信息科学与电子工程学院，上海交通大学）； Department of Computer Science, City University of Hong Kong（计算机科学系，香港城市大学）； State Key Laboratory of Multimedia information Processing, School of Computer Science, Peking University（多媒体信息处理国家重点实验室，计算机科学学院，北京大学）

AI总结本文研究了如何在图像压缩中平衡重建图像的保真度与感知质量。现有方法通常依赖单一的潜在表示同时处理结构细节、语义信息和感知先验，导致不同任务之间的冲突。为此，作者提出了一种双潜在协作解码框架MoDE，通过将标量量化和向量量化两种潜在表示分别作为保真度专家和感知专家，并引入专家特定增强和跨专家调制模块，实现两者的协同解码。实验表明，该方法在广泛比特率范围内实现了更优的保真-感知平衡。

2605.14389 2026-05-15 cs.AI cs.CL cs.LG

Nexus : An Agentic Framework for Time Series Forecasting

Sarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, Nanyun Peng, Vishy Tirumalashetty, Chun-Liang Li, Rui Zhang, Jinsung Yoon, Tomas Pfister

发表机构 * Google（谷歌）； Pennsylvania State University（宾夕法尼亚州立大学）

AI总结时间序列预测不仅涉及数值推断，还需结合新闻、事件等非结构化文本信息进行推理。为弥补现有时间序列基础模型（TSFMs）对文本信号不敏感以及大语言模型（LLMs）在不同领域表现不一的问题，本文提出Nexus，一种多智能体预测框架，通过分解预测过程为宏观与微观时间波动识别、上下文信息整合等阶段，实现更灵活的预测。实验表明，Nexus在多个领域数据上优于现有先进模型，同时生成高质量的推理轨迹，揭示了预测背后的驱动因素，证明了现实中的时间序列预测是超越单纯序列建模的智能体推理问题。

Comments 30 Pages, 3 figures, 5 Tables

2605.14380 2026-05-15 cs.CL

Mitigating Data Scarcity in Psychological Defense Classification with Context-Aware Synthetic Augmentation

Hoang-Thuy-Duong Vu, Quoc-Cuong Pham, Huy-Hieu Pham

发表机构 * College of Engineering and Computer Science, VinUniversity, Hanoi, Vietnam（越南 Vin大学工程与计算机科学学院，河内，越南）； VinUni-Illinois Smart Health Center, VinUniversity, Hanoi, Vietnam（越南 Vin大学与伊利诺伊大学智能健康中心，河内，越南）； Center for Innovations in Health Sciences, VinUniversity, Hanoi, Vietnam（越南 Vin大学健康科学创新中心，河内，越南）

AI总结该研究针对心理防御机制（PDMs）分类任务中因数据稀缺和类别不平衡带来的挑战，提出了一种结合上下文感知合成增强与混合分类模型的方法。通过整合语言上下文表示、基础临床特征以及150个标注防御条目，该方法在PsyDefDetect共享任务中显著提升了分类性能，准确率和宏F1值分别达到58.26%和24.62%，优于现有方法，为低资源场景下的心理防御分类建立了有力的基准。

AI 大模型

视觉与机器人

科学与医疗