arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.14742 2026-05-15 cs.CV cs.RO

EARL: Towards a Unified Analysis-Guided Reinforcement Learning Framework for Egocentric Interaction Reasoning and Pixel Grounding

Yuejiao Su, Xinshen Zhang, Zhen Ye, Lei Yao, Lap-Pui Chau, Yi Wang

发表机构 * Department of Electrical and Electronic Engineering, The Hong Kong Polytechnic University, Hong Kong SAR（香港理工大学电子与电气工程系）； Division of Emerging Interdisciplinary Areas (EMIA), The Hong Kong University of Science and Technology, Hong Kong SAR（香港理工大学新兴跨学科领域研究中心）

AI总结本文提出EARL，一种以自我视角分析为导向的强化学习框架，旨在提升机器人对人类与环境交互的推理能力和像素级定位精度。EARL采用两阶段解析结构，首先生成结构化文本描述，再根据用户查询生成回答和像素掩码，并通过分析引导特征合成器整合语义先验信息。实验表明，EARL在像素级定位任务中取得了优于现有基于强化学习方法的显著提升，展现出良好的泛化能力。

Comments Accepted at ICML 2026. Project page: https://github.com/yuggiehk/EARL

2605.14733 2026-05-15 cs.CV

Video-Zero: Self-Evolution Video Understanding

Ruixu Zhang, Deyi Ji, Lanyun Zhu, Xuanyi Liu, Yuxin Meng, Ruihang Chu, Yujiu Yang

发表机构 * Tsinghua University（清华大学）； Tencent（腾讯）； Tongji University（同济大学）； Peking University（北京大学）

AI总结本文提出了一种名为Video-Zero的自进化视频理解框架，旨在无需人工标注的情况下提升视频理解模型的推理能力。该方法通过一个问答共进化系统，聚焦于视频中时间局部化的关键证据，生成基于证据的问题并进行对齐学习，从而实现更有效的监督与模型训练。实验表明，Video-Zero在多个视频理解任务中显著提升了基础模型的性能，验证了其有效性与泛化能力。

2605.14727 2026-05-15 cs.CV

CHASM: Cross-frequency Harmonized Axis-Separable Mixing for Spectral Token Operators

Pengcheng Fang, Hongli Chen, Yuxia Chen, Tengjiao Sun, Jiaxin Liu, Xiaohao Cai

发表机构 * University of Southampton（南安普顿大学）； University of Queensland（昆士兰大学）； Chengdu University of Technology（成都理工大学）； University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结本文提出了一种名为CHASM的跨频率协调轴分离混合器，用于改进基于傅里叶变换的光谱token操作器。CHASM通过共享一个学习到的通道特征基，并为每个频率保留独立的正谱增益，实现了跨频率的通道方向对齐与局部频率适应性的结合。该方法在多个视觉任务中表现出色，实验表明其结构设计有助于提升模型性能，并验证了跨频率协调作为光谱操作器的有效归纳偏置。

2605.14723 2026-05-15 cs.AI cs.CL cs.LG

Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model

Minghao Wu, Yuting Yan, Zhenyang Cai, Ke Ji, Chuangsen Fang, Ziying Sheng, Xidong Wang, Rongsheng Wang, Hejia Zhang, Shuang Li, Benyou Wang, Hongyuan Zha

发表机构 * The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））

AI总结本文提出了一种名为SepsisAgent的新型代理模型，用于重症监护中的脓毒症治疗决策。该模型通过结合临床世界模型，模拟患者对不同治疗方案的反应，并采用“提出—模拟—优化”的流程进行决策优化。研究显示，SepsisAgent在遵循指南和安全指标方面表现优异，优于传统强化学习和大语言模型基线方法，其核心贡献在于通过与临床世界模型的反复交互，使模型能够学习患者生理变化的规律并提升决策可靠性。

2605.14721 2026-05-15 cs.AI

On Strong Equivalence Notions in Logic Programming and Abstract Argumentation

Giovanni Buraglio, Wolfgang Dvorak, Stefan Woltran

发表机构 * TU Wien, Austria（维也纳技术大学，奥地利）

AI总结本文研究了逻辑编程与抽象论证中强等价性的差异问题，指出在动态环境下，两类形式系统由于更新机制的不同，导致强等价性无法直接对应。为此，作者提出了一种新的逻辑程序强等价性定义，使得在特定类别的逻辑程序与邓式及扩展型论证框架之间，强等价性得以保持，从而恢复了不同形式系统间的兼容性。

2605.14717 2026-05-15 cs.CV cs.AI

Towards Label-Free Single-Cell Phenotyping Using Multi-Task Learning

Saqib Nazir, Ardhendu Behera

发表机构 * Department of Computer Science, Edge Hill University, UK（英国埃德希尔大学计算机科学系）

AI总结该研究旨在解决无标记单细胞成像中直接从明场图像推断分子表型的难题，提出了一种基于多任务学习的深度学习框架，能够同时完成白细胞分类和蛋白质表达水平的回归预测。该模型采用卷积神经网络与Transformer相结合的混合架构，通过可学习的跨分支门控模块融合局部纹理特征与全局表示，从而实现对差分相位对比图像的鲁棒形态-分子联合推理。实验表明，该方法在多个基准数据集上表现出色，为无需荧光染色的低成本血液学分析提供了新途径。

Comments Accepted in 28th International Conference on Pattern Recognition (ICPR) 2026

2605.14712 2026-05-15 cs.RO cs.AI cs.CL cs.CV

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen

发表机构 * HUST（华中科技大学）； ZGCA（中钢集团人工智能研究院）； ZGCI（中钢智能科技有限公司）； HIT（哈尔滨工业大学）； HKUST(GZ)（香港科技大学（广州））； BUAA（北京航空航天大学）； ZZU（浙江工业大学）； ECNU（华东师范大学）； USTC（中国科学技术大学）； DeepCybo

AI总结该研究针对机器人模仿学习中因短时意图差异导致的动作冲突问题，提出了一种基于历史信息的视觉-语言-动作（VLA）框架IntentVLA，通过编码近期视觉观测生成紧凑的短时意图表示，用于指导动作生成。研究还构建了AliasBench基准，用于评估短时观测歧义下的策略性能，实验表明IntentVLA在多个任务中提升了动作执行的稳定性并优于现有VLA方法。

Comments Code can be found in https://github.com/ZGC-EmbodyAI/IntentVLA

2605.14710 2026-05-15 cs.CV cs.AI

Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke

Liren Chen, Lidong Sun, Mingyan Huang, Junzhe Tang, Yinghui Zhu, Guanjie Wang, Yiqing Xia, Ting Xiao

发表机构 * School of Information Science and Engineering, East China University of Science and Technology（信息科学与工程学院，东华大学）

AI总结该研究针对缺血性中风预后预测中多模态数据融合不足的问题，提出了一种三模态融合模型，有效整合了医学影像、结构化临床数据和非结构化文本。核心方法通过大语言模型自动生成半结构化诊断文本，缓解了专家标注稀缺的问题，并设计了以视觉特征为条件的对齐融合模块，实现了跨模态的深度交互与异构性缓解。实验表明，该模型在真实临床数据上取得了最先进的预测性能。

Comments Corresponding author: Ting Xiao

2605.14708 2026-05-15 cs.CV

StyleTextGen: Style-Conditioned Multilingual Scene Text Generation

Zeyu Chen, Fangmin Zhao, Yan Shu, Yichao Liu, Liu Yu, Yu Zhou

发表机构 * Nankai University（南开大学）； University of Trento（特伦特大学）； Institute of Information Engineering, Chinese Academy of Sciences（中国科学院信息工程研究所）

AI总结 StyleTextGen 是一种用于多语言场景文本生成的风格条件生成框架，旨在解决从复杂背景中准确提取文本风格并保持跨字符细粒度风格一致性的挑战。该方法引入了双分支风格编码器、文本风格一致性损失以及掩码引导的生成策略，有效提升了多语言文本风格的感知与复制能力。研究还构建了首个双语场景文本风格基准 StyleText-CE，并在多项指标上取得了当前最优的性能。

Comments This paper has been accepted to CVPR 2026

2605.14705 2026-05-15 cs.CV

Towards Continuous Sign Language Conversation from Isolated Signs

Youngmin Kim, Kyobin Choo, Jiwoo Park, Minseo Kim, Chanyoung Kim, Junhyeok Kim, Seong Jae Hwang

发表机构 * Yonsei University（延世大学）； LG Electronics（LG电子）； Emory University（埃默里大学）

AI总结该研究旨在直接建模手语对话系统，以更好地支持聋人和听力障碍者使用手语进行交流。面对现有手语数据集词汇量有限、泛化能力弱的问题，研究者构建了大规模的孤立手语动作数据集SignaVox-W，并基于此生成连续的手语对话数据集SignaVox-U。通过引入检索引导的语音到手语翻译模型和扩散变换器BRAID，实现了从孤立动作到连续对话的生成，最终训练出无需依赖语音或书面语的直接手语到手语对话模型SignaVox，显著提升了手语生成的质量与语义对齐能力。

2605.14704 2026-05-15 cs.CV cs.AI cs.RO

SceneFunRI: Reasoning the Invisible for Task-Driven Functional Object Localization

Posheng Chen, Powen Cheng, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu

发表机构 * National Taiwan University（国立台湾大学）； Delta Robotics Innovation Center（Delta机器人创新中心）

AI总结在现实场景中，目标物体可能位于不可见区域，而当前视觉语言模型（VLMs）在推理这些被遮挡物体的位置方面仍面临挑战。为此，研究提出SceneFunRI基准，基于SceneFun3D数据集构建了一个包含855个实例的2D空间推理任务，要求模型通过任务指令和常识推理定位不可见的功能性物体。实验表明，现有最强基线模型在该任务上的表现仍较为有限，揭示了当前模型在不可见区域推理能力上的不足，亟需更紧密融合任务意图、常识先验、空间定位与不确定性感知搜索的模型改进。

2605.14703 2026-05-15 cs.CV

Generating HDR Video from SDR Video

SaiKiran Tedla, Francesco Banterle, Trevor Canham, Karanpreet Raja, David B. Lindell, Kiriakos N. Kutulakos, Jiacheng Li, Feiran Li, Daisuke Iso

发表机构 * Sony Research（索尼研究实验室）； York University（约克大学）； Vector Institute（向量研究所）； University of Toronto（多伦多大学）

AI总结本文研究如何从标准动态范围（SDR）视频生成高动态范围（HDR）视频，提出了一种基于大规模生成视频模型的解决方案。该方法引入了多曝光视频模型（MEVM）和可学习的视频合并模型（VMM），能够从单个非线性SDR视频输入生成多曝光SDR序列，并将其合并为高质量的HDR视频，有效保留暗部和亮部细节。实验表明，该方法在真实场景的消费级视频和经典影片中均能实现鲁棒的HDR转换，并可与现有SDR生成模型结合构建HDR合成流程。

2605.14700 2026-05-15 cs.RO

SR-Platform: An Agentic Pipeline for Natural Language-Driven Robot Simulation Environment Synthesis

Ben Wei Lim, Minh Duc Le, Thang Truong, Thanh Nguyen Canh

发表机构 * Strike Robotics

AI总结 SR-Platform 是一个基于智能体的系统，旨在通过自然语言指令自动生成可用于机器人学习的 MuJoCo 模拟环境。该系统将场景合成分解为四个阶段，包括意图解析、3D 资产生成、布局规划和场景装配，有效降低了构建训练环境的技术门槛。实验表明，SR-Platform 能够在不到一分钟内生成可执行的 MuJoCo 场景，显著提升了机器人模拟环境创建的效率和自动化程度。

2605.14698 2026-05-15 cs.LG cs.AI

NeuroAtlas: Benchmarking Foundation Models for Clinical EEG and Brain-Computer Interfaces

Konstantinos Kontras, Trui Osselaer, Stylianos G. Mouslech, Angeliki-Ilektra Karaiskou, Guido Gagliardi, Thomas Strypsteen, Mohammad Hossein Badiei, Anku Rani, Maarten Vanmarcke, Miguel Bhagubai, Chanakya Ekbote, Jaedong Hwang, Christos Chatzichristos, Paul Pu Liang, Maarten De Vos

发表机构 * KU Leuven（鲁文大学）； MIT（麻省理工学院）

AI总结本文介绍了NeuroAtlas，这是目前最大的临床脑电图（EEG）基准数据集，包含42个数据集和26万小时的EEG数据，涵盖癫痫、睡眠医学和脑龄估计等领域，并引入了专门的临床评估指标。研究对比了专门针对EEG的预训练模型与通用时间序列模型的性能，发现后者在某些任务上表现相当甚至更优。研究还指出，传统机器学习指标难以准确评估临床实用性，因此提出了更贴近实际应用的评估方法，并揭示了当前预训练模型在统一EEG建模方面仍存在较大差距。

2605.14696 2026-05-15 cs.CV

EponaV2: Driving World Model with Comprehensive Future Reasoning

Jiawei Xu, Zhizhou Zhong, Zhijian Shu, Mingkai Jia, Mingxiao Li, Jia-Wang Bian, Qian Zhang, Kaicheng Zhang, Jin Xie, Jian Yang, Wei Yin

发表机构 * PCA Lab, VCIP, College of Computer Science, Nankai University（PCA实验室、VCIP、计算机科学学院、南开大学）； Horizon Robotics ； HKUST（香港科技大学）； NJUPT（南京工程大学）； NTU（国立台湾大学）； Anyverse ； School of Intelligence Science and Technology, Nanjing University（智能科学与技术学院、南京大学）

AI总结本文提出了一种名为 EponaV2 的新型驾驶世界模型，旨在解决现有自动驾驶系统在轨迹规划中依赖大量人工标注数据的问题。该模型通过引入全面的未来推理机制，能够预测未来几何和语义信息，从而提升对环境的理解和规划能力。此外，受大语言模型训练方法的启发，EponaV2 引入了流匹配组相对策略优化机制，进一步提升了规划精度，在多个基准测试中取得了优于现有方法的性能。

2605.14694 2026-05-15 cs.LG

The Rate-Distortion-Polysemanticity Tradeoff in SAEs

Tommaso Mencattini, Francesco Montagna, Francesco Locatello

发表机构 * EPFL（瑞士联邦理工学院）； Institute of Science and Technology Austria（奥地利科学技术研究所）

AI总结本文研究了稀疏自编码器（SAEs）在重建精度（最小化失真）、编码效率（最小化速率）与表示语义单一性（单义性）之间的权衡问题，提出了“速率-失真-多义性”三重权衡。通过理论分析与实验验证，作者表明强制SAEs学习单义表示会导致速率和失真增加，并发现最优SAEs的多义性程度由训练数据分布决定，尤其是特征共现概率。研究进一步拓展到实际场景，提出多义性度量应满足的必要条件，并在大语言模型训练的SAEs上对现有度量方法进行了评估，揭示了多义性本质上是数据层面的问题，应在架构和优化层面加以考虑。

2605.14689 2026-05-15 cs.CV

Are Candidate Models Really Needed for Active Learning?

Harshini Mridula Mohan, Maanya Manjunath, Vipul Arya, S. H. Shabbeer Basha, Nitin Cheekatla

发表机构 * SoCSE, RV University, Bengaluru, India.（RV大学计算机科学与工程系，印度班加罗尔）； School of Engineering and Technology, Vidyashilp University, Bengaluru, India.（维达希尔普大学工程与技术学院，印度班加罗尔）； Dataplex Inc., USA.（Dataplex公司，美国）

AI总结本文探讨了在主动学习中是否真的需要候选模型，并提出了一种无需初始候选模型的主动学习方法。研究采用随机初始化的卷积神经网络和变换器模型，结合基于置信度的采样策略，验证了其在减少标注负担方面与传统方法相当的效果。实验表明，低置信度采样策略在多数情况下表现最佳，为高效、灵活的主动学习提供了新思路。

Comments Accepted for publication in Computer Vision and Image Understanding (CVIU)

2605.14686 2026-05-15 cs.LG

ReMIA: a Powerful and Efficient Alternative to Membership Inference Attacks against Synthetic Data Generators

Davide Scassola, Andrea Coser, Sebastiano Saccani

发表机构 * Aindo SpA（Aindo公司）

AI总结在隐私保护日益重要的背景下，合成数据生成器（SDGs）被广泛用于数据共享，但其生成的数据仍面临成员推理攻击（MIAs）的威胁。本文提出了一种名为 ReMIA 的新型隐私评估方法，该方法仅需两次 SDG 训练运行和与原始训练集规模相当的辅助数据，显著提升了 MIAs 的实用性。实验表明，ReMIA 在保持高灵敏度的同时，相比现有方法更加高效，同时揭示了 SDGs 在隐私与数据效用平衡方面优于传统去标识化方法的潜力。

2605.14685 2026-05-15 cs.LG cond-mat.stat-mech cs.AI

Spontaneous symmetry breaking and Goldstone modes for deep information propagation

Nabil Iqbal, T. Anderson Keller, Yue Song, Takeru Miyato, Max Welling

发表机构 * Dept. of Mathematical Sciences, Durham University（杜伦大学数学科学系）； Kempner Institute, Harvard University（哈佛大学凯普纳研究所）； AMLab, University of Amsterdam（阿姆斯特丹大学AMLab）； College of AI, Tsinghua University（清华大学人工智能学院）； University of Tübingen, Tübingen（图宾根大学）； AI Center（人工智能中心）； CuspAI

AI总结本文研究了具有连续对称性的深度神经网络中自发对称性破缺现象及其类似戈德斯通模式的自由度，揭示了这些自由度能够支持信息在深度网络和循环迭代中的相干传播。通过理论分析与实验验证，作者表明这种机制可以在无需残差连接或归一化等结构稳定器的情况下实现稳定的信息流，提升了前馈网络的可训练性和表示多样性，并在循环网络中有效增强了长期记忆能力，改善了长序列建模任务的性能。

Comments 28 pages. Code at https://github.com/nabiliqbal/ssb-goldstone-deep-info-prop

2605.14683 2026-05-15 cs.RO cs.SY eess.SY

SeaVis: Modeling and Control of a Remotely Operated Towed Vehicle for Seabed Visualization and Mapping

Abdelhakim Amer, Aske Alstrup, Frederik Rasmussen, Yury Brodskiy, Andriy Sarabakha, Erdal Kayacan

发表机构 * Artificial Intelligence in Robotics Laboratory (AiR Lab)（人工智能机器人实验室（AiR实验室））； Department of Electrical and Computer Engineering（电气与计算机工程系）； EIVA a/s（EIVA公司）； Automatic Control Group (RAT)（自动控制组（RAT））； Department of Electrical Engineering and Information Technology（电气工程与信息科技系）

AI总结本文提出了一种用于海底可视化与测绘的遥控拖曳式水下机器人SeaVis的新型数学模型，并设计了一种增益调度的线性二次调节器（LQR）以实现其深度和姿态的鲁棒控制。通过高保真仿真验证，结果表明该LQR控制器在抗干扰能力、控制效率和舵面动作幅度等方面均优于传统PID控制器，并且在全操作速度范围内均表现出良好的控制效果。研究为水下机器人高精度稳定作业提供了有效的控制方法。

Comments Accepted at IEEE/ASME AIM 2026

2605.14679 2026-05-15 cs.CL cs.AI

AI-assisted cultural heritage dissemination: Comparing NMT and glossary-augmented LLM translation in rock art documents

Vicent Briva-Iglesias, María Ferre-Fernández

发表机构 * Dublin City University（都柏林城市大学）； CTTS（文化传承研究所）； ADAPT Centre（适应中心）； SALIS ； Universidad de Almería（阿尔梅里亚大学）

AI总结本研究探讨了在岩画文献等术语密集的文化遗产领域中，如何通过人工智能辅助提升多语言传播的质量。研究比较了三种英文机器翻译方法在西班牙语学术文本中的表现，重点评估了基于术语表增强的提示策略对专业术语准确性的提升效果。结果表明，结合术语表的大型语言模型（Gemini-RAG）在术语准确性和整体翻译质量上均优于传统神经机器翻译和基础提示模型，为文化机构提供了一种低成本、高效率的术语控制解决方案。

2605.14672 2026-05-15 cs.LG

AQKA: Active Quantum Kernel Acquisition Under a Shot Budget

Jian Xu, Chao Li, Delu Zeng, John Paisley, Qibin Zhao

发表机构 * RIKEN iTHEMS（日本理化学研究院iTHEMS研究中心）； RIKEN AIP（日本理化学研究院Advanced Institute for Physics）； South China University of Technology（华南理工大学）； Columbia University（哥伦比亚大学）

AI总结该论文研究了在有限测量资源下高效估计量子核矩阵的问题，提出了一种名为AQKA的新方法，通过动态分配测量资源以提升分类性能。其核心贡献包括：建立了一个完整的资源分配策略选择框架，并提出了基于梯度和核值的成对测量分配理论，显著提升了在有限预算下的模型表现。实验表明，AQKA在多个量子硬件平台上均优于现有方法，尤其在稀疏敏感任务中表现突出。

2605.14667 2026-05-15 cs.AI

How Sensitive Are Radiomic AI Models to Acquisition Parameters?

D. Gil, I. Sanchez, C. Sanchez

发表机构 * Computer Vision Center（计算机视觉中心）； Universitat Autònoma de Barcelona（巴塞罗那自治大学）

AI总结本文研究了放射组学AI模型对影像采集参数的敏感性，提出了一种基于混合效应的框架，用于量化临床相关参数对模型性能的影响，并识别出有助于提升跨数据集鲁棒性的关键参数范围。通过在两个独立的多中心CT数据集上应用该框架，研究发现优化的扫描参数配置（如管电流≥200mA、螺距≤1.5、层厚≤1.25mm）可在保证诊断质量的同时降低辐射剂量，显著提升模型的敏感性和特异性。

2605.14666 2026-05-15 cs.AI

Monitoring Data-aware Temporal Properties (Extended Version)

Alessandro Gianola, Marco Montali, Sarah Winkler

发表机构 * INESC-ID/Instituto Superior Técnico, Universidade de Lisboa, Portugal（葡萄牙里斯本大学理工学院/INESC-ID）； Free University of Bozen-Bolzano, Italy（意大利博登-博洛尼亚自由大学）

AI总结本文研究如何对具有任意SMT理论的线性时序逻辑（LTLfMT）进行前瞻监控，以应对动态系统中无法访问内部规范的问题。提出了一种结合自动机理论与自动推理技术的新框架，能够在有限轨迹上正确监控复杂属性。该方法首次识别出包含线性算术与未解释函数的可判定子类，适用于数据感知的业务流程和只读数据库上的动态系统，并通过原型实现验证了其可行性。

Comments This is the extended version of a paper accepted to IJCAI 2026

2605.14660 2026-05-15 cs.AI

MindGap: A Conversational AI Framework for Upstream Neuroplastic Intervention in Post-Traumatic Stress Disorder

Eranga Bandara, Ross Gore, Asanga Gunaratna, Ravi Mukkamala, Nihal Siriwardanagea, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Wathsala Herath, Chalani Rajapakse, Sachin Shetty, Anita H. Clayton, Christopher K. Rhea, Ng Wee Keong, Kasun De Zoysa, Amin Hass, Shaifali Kaushik, Preston Samuel, Atmaram Yarlagadda

发表机构 * Old Dominion University（旧 Dominion 大学）； AI Motion Labs（AI Motion 实验室）； Nanyang Technological University（南洋理工大学）； University of Colombo（科伦坡大学）； Accenture Technology Labs（Accenture 技术实验室）； Department of Psychiatry and Neurobehavioral Sciences（精神病学与神经行为科学系）； University of Virginia School of Medicine（弗吉尼亚大学医学院）； Blanchfield Army Community Hospital（Blanchfield 军队社区医院）； McDonald Army Health Center（McDonald 军队健康中心）

AI总结本文提出了一种名为MindGap的会话式人工智能框架，旨在通过上游神经可塑性干预治疗创伤后应激障碍（PTSD）。该方法基于佛教心理框架“缘起”理论，引导患者在感知与反应之间的时间间隙进行观察，从而实现对过度反应神经通路的结构性重塑。MindGap通过三个渐进的观察层次，帮助患者逐步识别并削弱引发应激反应的潜在信念，实现从源头上缓解症状，而非仅在反应发生后进行压制。该框架完全在设备端运行，保障隐私，适合在临床和军事等对数据安全要求严格的环境中部署。

详情

英文摘要

Post-Traumatic Stress Disorder (PTSD) is fundamentally a neuroplastic problem traumatic contact events encode over-reactive neural pathways through Hebbian long-term potentiation, producing hair-triggered amygdala-HPA stress cascades that fire before conscious awareness can intercept them. Existing therapeutic approaches, prolonged exposure, EMDR, cognitive behavioural therapy, operate predominantly downstream of the reactive cascade, teaching patients to tolerate or reframe distress after it has arisen. While clinically valuable, these suppression-based approaches do not produce the upstream pathway dissolution that constitutes lasting structural neural reorganisation. This paper proposes MindGap, a privacy-preserving on-device conversational AI framework that delivers structured neuroplastic rehabilitation for PTSD through the practice of dependent origination, a Buddhist psychological framework that identifies the precise moment between the pre-cognitive affective signal and the reactive elaboration that follows as the site of therapeutic intervention. MindGap guides patients through three progressive layers of observation at this feeling tone gap: noticing the bare affective signal before reactive elaboration, recognising it as self-arising rather than caused by the stimulus, and recognising the conditioned implicit belief beneath the feeling. Each layer corresponds to progressively deeper prefrontal regulatory engagement and progressively deeper long-term depression-mediated weakening of the reactive pathway, producing genuine upstream dissolution rather than downstream suppression. Running entirely on-device with no data egress, MindGap delivers daily calibrated exposure sessions through a fine-tuned lightweight large language model, making it deployable in sensitive clinical and military contexts where cloud-based solutions are not permitted.

URL PDF HTML ☆

赞 0 踩 0

2605.14659 2026-05-15 cs.LG

Slower Generalization, Faster Memorization: A Sweet Spot in Algorithmic Learning

Shin So, Kyelim Lee, Albert No

发表机构 * Yonsei University（延世大学）

AI总结本研究探讨了算法学习中泛化与记忆化之间的关系，指出在数据量达到一定阈值后，增加数据可能不会加速验证准确率的提升，反而需要更多的梯度更新。在结构化输出任务中，如Needleman-Wunsch矩阵生成，模型在中等数据量时达到最佳验证性能，而更大的数据集虽仍可实现泛化，但收敛速度变慢。研究揭示了泛化起始所需的数据量与基于更新次数的收敛优化之间存在差异，并指出了在某些结构化任务中，学习规则与精确拟合可能分道扬镳。

2605.14654 2026-05-15 cs.CV

Beyond Instance-Level Self-Supervision in 3D Multi-Modal Medical Imaging

Tan Pan, Shuhao Mei, Yixuan Sun, Kaiyu Guo, Chen Jiang, Zhaorui Tan, Mengzhu Li, Limei Han, Xiang Zou, Yuan Cheng, Mahsa Baktashmotlagh

发表机构 * Fudan University, China（复旦大学）； University of Queensland, Australia（昆士兰大学）； Shanghai Academy of AI for Science, China（上海人工智能科学研究院）； Huashan Hospital, National Center for Neurological Disorders, Fudan University, China（华山医院，国家神经系统疾病中心，复旦大学）； Bioinformatics Institute (BII), Agency for Science, Technology and Research (A*STAR), Singapore（生物信息研究所（BII），科技研究局（A*STAR），新加坡）

AI总结该研究针对医学影像中的多模态3D数据，提出了一种超越个体级自监督的方法，利用解剖结构在不同个体间保持的拓扑一致性作为监督信号。通过两种对齐策略——个体内的跨模态三元组目标和个体间的伪对应关系生成——有效提升了模型对局部和全局拓扑结构的学习能力。实验表明，该方法在多个下游任务中取得了显著性能提升，并在测试时模态缺失情况下表现出更强的鲁棒性。

Comments ICML2026

2605.14651 2026-05-15 cs.CV

TERRA-CD: Multi-Temporal Framework for Multi-class and Semantic Change Detection

Omkar Oak, Rukmini Nazre, Rujuta Budke, Suraj Sawant

发表机构 * COEP Technological University, Pune, India（科帕尔技术大学，印度普纳）； University of Massachusetts, Amherst, USA（马萨诸塞大学，美国阿姆赫斯特）； North Carolina State University, USA（北卡罗来纳州立大学，美国）

AI总结本文提出了一种多时相的遥感影像变化检测框架TERRA-CD，用于多类别和语义变化检测。该研究构建了一个包含5,221对Sentinel-2影像的基准数据集，覆盖美国和欧洲232个城市，并提供了三种标注方案，涵盖土地覆盖分类、植被变化和语义变化。通过多种深度学习方法评估了该数据集在多类别和语义变化检测中的有效性，为城市植被监测和环境变化分析提供了重要资源。

Comments Paper presented at 11th International Congress on Information and Communication Technology (ICICT) 2026, London

2605.14645 2026-05-15 cs.CV cs.AI

Vision-Based Water Level and Flow Estimation

ZhiXin Sun

发表机构 * PowerChina Zhongnan Engineering Corporation Limited（中国电力工程集团中南工程公司）

AI总结该研究提出了一种结合先进视觉模型与统计建模的综合框架，用于提高水位检测和水流估算的精度。通过引入物理先验知识和鲁棒滤波策略，有效应对了环境敏感性、精度有限和现场校准复杂等挑战。该方法在保持自动化和可解释性优势的同时，提升了传统视觉方法在水文监测中的可靠性。

2605.14643 2026-05-15 cs.LG cs.NA math.NA math.OC

Unbiased and Second-Order-Free Training for High-Dimensional PDEs

Jaemin Seo, Surin Lee, Jae Yong Lee

发表机构 * Department of Artificial Intelligence, Chung-Ang University, Seoul, Republic of Korea（人工智能系， Chung-Ang 大学，首尔，韩国）

AI总结本文研究了基于倒向随机微分方程的深度学习方法在求解高维偏微分方程时的训练偏差问题，指出常用的欧拉-马尤亚时间离散化方案会导致损失函数的内在偏差。为此，作者提出了一种无偏且无需二阶导数的训练框架，在保持计算效率的同时消除了该偏差，提升了高维PDE求解的准确性和稳定性。

Comments Accepted at ICML 2026

Journal ref International Conference on Machine Learning 2026

AI 大模型

视觉与机器人

科学与医疗