arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13751 2026-05-14 cs.RO cs.SE cs.SY eess.SY

Learning Responsibility-Attributed Adversarial Scenarios for Testing Autonomous Vehicles

Yizhuo Xiao, Haotian Yan, Ying Wang, Zhongpan Zhu, Yuxin Zhang, Xintao Yan, Mustafa Suphi Erden, Cheng Wang

发表机构 * School of Engineering and Physical Sciences, Heriot-Watt University, Edinburgh, U.K.（1 工程与物理科学学院，赫瑞-沃顿大学，爱丁堡，英国）； State Key Laboratory of Autonomous Intelligent Unmanned Systems, Tongji University, Shanghai, China（2 自主智能无人系统国家重点实验室，同济大学，上海，中国）； College of Computer Science and Technology, Jilin University, Changchun, China（3 计算机科学与技术学院，吉林大学，长春，中国）； University of Shanghai for Science and Technology, Shanghai, China（4 上海科技大学，上海，中国）； National Key Laboratory of Automotive Chassis Integration and Bionics, Jilin University, Changchun, China（5 汽车底盘集成与生物力学国家重点实验室，吉林大学，长春，中国）； Department of Civil Engineering, The University of Hongkong, Hongkong, China（6 市政工程系，香港大学，香港，中国）

AI总结该研究旨在为自动驾驶系统（ADS）建立可信的安全保障，通过区分系统缺陷与不可避免的交通冲突，生成具有责任归属的对抗场景。提出的方法CARS结合上下文感知的对抗体选择与闭环模拟优化的生成对抗策略，能够生成物理可行且责任可追溯的碰撞场景。该框架在多国交通环境下表现出色，能够有效发现符合法规要求的高责任归属碰撞场景，为自动驾驶系统的可解释性验证提供了新的方向。

2605.13746 2026-05-14 cs.CV cs.AI

Weakly-Supervised Spatiotemporal Anomaly Detection

Urvi Gianchandani, Praveen Tirupattur, Mubarak Shah

发表机构 * University of Texas at Dallas（德克萨斯大学达拉斯分校）； University of Central Florida（佛罗里达中央大学）

AI总结本文研究了弱监督下的时空异常检测问题，仅使用视频级别的标签进行训练，无需逐帧标注。核心方法是通过提取正常和异常视频片段的特征，并利用多实例排序损失（MIL）对时空区域进行异常评分，同时考虑了异常在时间和空间上的局部性。该方法在包含时空标注的UCF Crime2Local数据集上进行了验证，取得了有效结果。

2605.13744 2026-05-14 cs.CV

Aligning Network Equivariance with Data Symmetry: A Theoretical Framework and Adaptive Approach for Image Restoration

Feiyu Tan, Qi Xie, Zongben Xu, Deyu Meng

发表机构 * School of Mathematics and Statistics（数学与统计学学院）

AI总结图像修复是一个固有病态的逆问题，而嵌入几何对称先验的等变网络可以缓解这一问题并提升性能。然而，现有研究对网络等变性与数据对称性的关系理解仍停留在启发式层面，缺乏系统理论框架来量化对称性、选择变换群或评估模型与数据的对齐程度。本文从优化角度出发，首次提出了在数据集层面可量化的非严格对称性定义，并将其作为约束构建图像修复逆问题，揭示了数据对称性、模型等变性与泛化能力之间的内在联系，同时提出了一个样本自适应的等变网络，能够动态对齐每个样本的内在对称性，实验表明该方法在超分辨率、去噪和去雨任务中显著优于传统方法。

Comments 30 pages, 9 figures, Supplementary Material can be found at https://github.com/tanfy929/SA-Conv

详情

英文摘要

Image restoration is an inherently ill posed inverse problem. Equivariant networks that embed geometric symmetry priors can mitigate this ill posedness and improve performance. However, current understanding of the relationship between network equivariance and data symmetry remains largely heuristic. Particularly for real world data with imperfect symmetry, existing research lacks a systematic theoretical framework to quantify symmetry, select transformation groups, or evaluate model data alignment. To bridge this gap, we conduct an analysis from an optimization perspective and formalize the intrinsic relationship among data symmetry priors, model equivariance, and generalization capability. Specifically, we propose for the first time a quantifiable definition of non strict symmetry at the dataset level (rather than sample level) and use it as a constraint to formulate the restoration inverse problem. We then show that the equivariance for restoration models can be naturally derived from this inverse problems incorporated the proposed symmetry constraints, and that the equivariance error of the optimal restoration operator is strictly bounded by the data symmetry error and the discretization mesh size. Furthermore, by analyzing the network's empirical risk, we demonstrate that aligning equivariance with data symmetry optimizes the bias variance trade off, minimizing the total expected risk. Guided by these insights, we propose a Sample Adaptive Equivariant Network that uses a hypernetwork and transformation learnable equivariant convolutions to dynamically align with each sample's inherent symmetry. Extensive experiments on super resolution, denoising, and deraining validate our theoretical findings and show significant superiority over standard baselines and traditional equivariant models. Our code and supplementary material are available at https://github.com/tanfy929/SA-Conv.

URL PDF HTML ☆

赞 0 踩 0

2605.13740 2026-05-14 cs.LG

Learning POMDP World Models from Observations with Language-Model Priors

Valentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf

发表机构 * Max Planck Institute for Intelligent Systems（马克斯·普朗克智能系统研究所）； IRIIS ； University of California, Santa Barbara（加州大学圣芭芭拉分校）； University of Tübingen（图宾根大学）； University of Oxford（牛津大学）； ELLIS Institute Tübingen（图宾根ELLIS研究所）

AI总结该研究探讨了如何利用语言模型先验知识从观察数据中学习部分可观测马尔可夫决策过程（POMDP）世界模型，以减少对环境交互的依赖。提出了一种名为 Pinductor 的方法，通过语言模型从少量观察-动作轨迹中生成候选 POMDP 模型，并通过迭代优化信念状态下的似然分数进行模型精炼。实验表明，Pinductor 在样本效率上优于传统表格型 POMDP 方法，并且性能随着语言模型能力的提升而增强，为在部分可观测环境下高效学习世界模型提供了新思路。

2605.13737 2026-05-14 cs.AI cs.CL

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

Trung Nguyen Quang, Yiming Gao, Fanyi Pu, Kaichen Zhang, Shuo Sun, Ziwei Liu

发表机构 * Nanyang Technological University（南洋理工大学）； LMMs-Lab Team（多模态大模型实验室团队）； Johns Hopkins University（约翰霍普金斯大学）

AI总结本文研究了全模态大语言模型在处理文本前提与实际感知内容矛盾的问题时存在的“表示-行为鸿沟”。作者构建了一个名为IMAVB的基准数据集，用于评估模型在检测感知与文本前提冲突方面的能力，并发现模型在隐藏状态中能够准确编码矛盾信息，但在输出行为上却表现出拒绝能力不足或过度拒绝的问题。研究还提出了一种基于探针引导的对数几率调整方法，有效提升了模型的拒绝行为，表明全模态模型的瓶颈在于信息翻译而非感知能力。

2605.13731 2026-05-14 cs.LG cs.HC

Distinguishing performance gains from learning when using generative AI

Lixiang Yan, Samuel Greiff, Jason M. Lodge, Dragan Gašević

发表机构 * Faculty of Information Technology, Monash University（墨尔本大学信息技术学院）； School of Education, The University of Queensland（昆士兰大学教育学院）

AI总结本文探讨了在教育中使用生成式人工智能（AI）所带来的绩效提升是否真正促进了高质量的学习。研究指出，尽管生成式AI能提高学习者的表现，但其使用可能并未有效促进深层次的认知和元认知加工过程。文章的核心方法通过实证分析揭示了AI辅助学习中的潜在认知局限，并强调了在教育应用中需关注学习深度与质量的提升。

Journal ref Nature Reviews Psychology, 4(7), 435-436 (2025)

2605.13730 2026-05-14 cs.LG cs.AI cs.CV

Robust and Explainable Bicuspid Aortic Valve Diagnosis Using Stacked Ensembles on Echocardiography

Christos Chrysanthos Nikolaidis, Vasileios Sachpekidis, Nikolas Moustakidis, Theofilos Moustakidis, Pavlos S. Efraimidis

发表机构 * Department of Electrical and Computer Engineering, Democritus University of Thrace（电气与计算机工程系，德莫克里特大学）

AI总结该研究旨在利用超声心动图图像可靠诊断二叶式主动脉瓣（BAV），解决因操作者经验和图像质量差异导致的诊断不一致性问题。研究提出了一种基于视频集成的可解释人工智能模型，通过分析常规获取的左心室长轴视图动态影像，实现了对BAV与三叶式主动脉瓣（TAV）的准确分类。模型在90例患者数据上表现出优异的分类性能，并通过Grad-CAM和SHAP值提供了可解释的诊断依据，有助于提升临床诊断的透明度和可追溯性。

2605.13729 2026-05-14 cs.CV cs.AI

Coordinating Multiple Conditions for Trajectory-Controlled Human Motion Generation

Deli Cai, Haoyang Ma, Changxing Ding

发表机构 * School of Electronic and Information Engineering, South China University of Technology（华南理工大学电子与信息学院）； Pazhou Lab（琶洲实验室）

AI总结本文研究了在文本描述和空间轨迹双重条件下生成真实人体运动的问题，现有方法在条件冲突和运动表示冗余方面存在不足，导致生成质量下降或轨迹控制不稳定。为此，作者提出了一种解耦框架 CMC，通过分治策略将任务分为轨迹控制和运动补全两个阶段，分别确保轨迹准确跟踪和生成完整运动。此外，引入选择性补全机制以缓解数据不足带来的过拟合问题，实验表明 CMC 在多个数据集上取得了优越的控制精度和运动质量。

2605.13725 2026-05-14 cs.AI cs.SI

ScioMind: Cognitively Grounded Multi-Agent Social Simulation with Anchoring-Based Belief Dynamics and Dynamic Profiles

Yitian Yang, Yiqun Duan, Linghan Huang, Yiqi Zhu, Francesco Bailo, Chunmeizi Su, Huaming Chen

发表机构 * The University of Sydney（悉尼大学）

AI总结 ScioMind 是一个基于认知机制的多智能体社会模拟框架，旨在提升基于大语言模型的社会意见动态研究的真实性。该框架结合结构化意见演化与基于LLM的智能体推理，引入记忆锚定的信念更新规则、分层记忆架构以及基于语料库的动态智能体画像，以更真实地模拟人类在社会互动中的信念变化与行为特征。实验表明，ScioMind 在意见极化、多样性、轨迹稳定性等方面表现出更符合现实的模拟效果，为社会模拟提供了新的认知基础设计思路。

2605.13724 2026-05-14 cs.CV cs.AI

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

Yuchao Gu, Guian Fang, Yuxin Jiang, Weijia Mao, Song Han, Han Cai, Mike Zheng Shou

发表机构 * NVIDIA ； Show Lab, National University of Singapore（新加坡国立大学Show实验室）； MIT（麻省理工学院）

AI总结本文提出 AnyFlow，一种基于流图的任意步数视频扩散模型蒸馏框架，旨在解决一致性蒸馏模型在测试时分配更多采样步数时性能下降的问题。AnyFlow 通过将蒸馏目标从终点一致性映射转换为任意时间区间的流图转移学习，优化完整的 ODE 采样轨迹，并引入流图反向模拟方法，提升采样效率并减少测试时误差。实验表明，AnyFlow 在少量步数生成任务中性能优于或匹配现有方法，同时支持任意步数的灵活扩展。

Comments Project page at https://nvlabs.github.io/AnyFlow/

2605.13717 2026-05-14 cs.LG stat.ML

Tight Sample Complexity Bounds for Entropic Best Policy Identification

Amer Essakine, Claire Vernade

发表机构 * ENS Paris Saclay（巴黎-萨克雷大学）； University of Technology Nuremberg（纽伦堡技术大学）

AI总结本文研究了在熵风险度量下有限时间风险敏感强化学习中的最优策略识别问题。作者针对现有样本复杂度上界与下界之间存在的指数级差距，提出了一种基于前向模型并结合KL散度探索奖励的算法，通过利用指数效用函数的平滑性质，改进了集中性分析，从而消除了原有的指数因子，使得样本复杂度达到理论下界，填补了该问题的空白。

2605.13713 2026-05-14 cs.CV eess.IV

Learning to Optimize Radiotherapy Plans via Fluence Maps Diffusion Model Generation and LSTM-based Optimization

Isabella Poles, Simon Arberet, Riqiang Gao, Martin Kraus, Marco D. Santambrogio, Florin C. Ghesu, Ali Kamen, Dorin Comaniciu

发表机构 * Politecnico di Milano（米兰理工学院）； Digital Technology and Innovation, Siemens Healthineers（西门子医疗数字化技术与创新）

AI总结本文提出了一种基于扩散模型和LSTM的端到端优化方法，用于放射治疗计划的生成。该方法通过分布匹配的扩散模型生成临床可行的射线强度图，并利用LSTM模块学习梯度更新动态，从而快速优化剂量分布。实验表明，该方法在提升计划效率、灵活性和机器可执行性方面优于现有方法。

Comments Early Accept at MICCAI 2026

2605.13711 2026-05-14 cs.LG

MILM: Large Language Models for Multimodal Irregular Time Series with Informative Sampling

Hsing-Huan Chung, Shijun Li, Yoav Wald, Xing Han, Suchi Saria, Joydeep Ghosh

发表机构 * University of Texas at Austin（德克萨斯大学奥斯汀分校）； Technion-IIT（技术学院-以色列理工学院）； Johns Hopkins University（约翰霍普金斯大学）

AI总结该研究提出了一种名为MILM的多模态不规则时间序列语言模型，用于处理来自异构数值和文本通道的异步、不规则采样数据，例如医疗中的电子健康记录。MILM通过将时间序列表示为XML格式的有序三元组，并采用两阶段微调策略，分别学习采样模式和观测值的联合建模，从而提升分类性能。实验表明，MILM在多个医疗数据集上取得了最佳或次优结果，并在值缺失场景下表现出更强的鲁棒性。

2605.13709 2026-05-14 cs.CL cs.AI cs.LG

Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety

Qian Shen, Fanghua Cao, Min Yao, Shlok Gilda, Bonnie J. Dorr, Walter L. Leite

发表机构 * University of Florida（佛罗里达大学）

AI总结该研究旨在生成适合儿童阅读的英文故事，同时控制难度和确保安全性。研究通过监督微调方法，对三个参数规模为8B的紧凑型大语言模型进行训练，使其能够生成符合儿童阅读水平的故事。实验表明，经过适当微调的8B模型在难度控制方面优于零样本使用的更大模型，且几乎不存在安全问题，为教育场景中低成本、高效生成儿童读物提供了可行方案。

Comments Comments: 15 pages, 4 figures. Author Two and Author Three contributed equally. Accepted by the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026), ACL 2026

2605.13702 2026-05-14 cs.AI

Adaptive mine planning under geological uncertainty: A POMDP framework for sequential decision-making

Hamza Khalifi, Jef Caers, Yassine Taha, Mostafa Benzaazoua, Abdellatif Elghali

发表机构 * Geology & Sustainable Mining Institute (GSMI), University Mohammed VI Polytechnic (UM6P)（地质与可持续采矿研究所（GSMI），穆罕默德六世理工学院（UM6P））； Department of Earth and Planetary Sciences, Stanford University（地球与行星科学系，斯坦福大学）

AI总结本文提出了一种基于部分可观察马尔可夫决策过程（POMDP）的框架，用于在地质不确定性下进行自适应矿山规划。该方法通过逐步更新对地质条件的信念，动态调整开采和运输决策，从而替代传统的固定计划模式。研究引入了一种结合模拟退火和集合平滑技术的混合架构，有效提升了计算可行性，并在实际铜金露天矿案例中显著提高了净现值，展示了该方法在应对不确定性方面的优越性和鲁棒性。

2605.13695 2026-05-14 cs.CL cs.AI

RTLC -- Research, Teach-to-Learn, Critique: A three-stage prompting paradigm inspired by the Feynman Learning Technique that lifts LLM-as-judge accuracy on JudgeBench with no fine-tuning

Andrea Morandi

发表机构 * Cisco（思科）

AI总结该研究提出了一种名为RTLC的三阶段提示范式，灵感来源于费曼学习法，旨在提升大语言模型作为评判者的准确性，无需微调。RTLC通过“研究—教学—批判”三个阶段，引导模型生成多个候选判断并进行交叉对比，最终输出优化后的评判结果。实验表明，在JudgeBench基准上，RTLC显著提升了模型的判断准确率，优于传统的自洽投票和零样本方法，展示了其在开放生成评估中的有效性。

2605.13692 2026-05-14 cs.LG cs.CC

Polyhedral Instability Governs Regret in Online Learning

Yuetai Li, Fengqing Jiang, Yichen Feng, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Linda Bushnell, Radha Poovendran

发表机构 * University of Washington（华盛顿大学）； Western Washington University（西雅图华盛顿大学）； King Abdulaziz City for Science and Technology（卡布勒·阿卜杜勒·阿齐兹科技城）； HUMAIN

AI总结本文研究了在线学习中组合动作决策问题的遗憾界，指出这类问题的遗憾主要由多面体结构的不稳定性决定，即活动区域变化的次数。作者提出了一种基于区域切换次数和区域顶点数的遗憾界分析方法，并在全信息反馈和固定划分假设下，证明了遗憾的渐进界。该结果适用于在线凸优化和在线子模-凹博弈等场景，并通过实验验证了理论分析的有效性。

2605.13690 2026-05-14 cs.LG cs.AI

The WidthWall: A Strict Expressivity Hierarchy for Hypergraph Neural Networks

Fengqing Jiang, Yuetai Li, Yichen Feng, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Linda Bushnell, Radha Poovendran

发表机构 * University of Washington（华盛顿大学）； Western Washington University（西华盛顿大学）； King Abdulaziz City for Science and Technology（国王阿卜杜勒阿齐兹科技城）； HUMAIN

AI总结该研究探讨了超图神经网络（HGNN）在表达复杂高阶交互结构方面的能力，指出模型的表达能力取决于其能够检测和计数的局部结构模式。通过引入同态密度的概念，研究建立了以超树宽度为指标的严格表达能力层次，并揭示了一个“宽度墙”现象：当结构模式的宽度超过一定阈值时，任何固定深度的HGNN都无法有效表示这些结构。该成果为15种HGNN架构提供了统一的理论分析，并在真实超图数据集上验证了宽度墙对模型性能的预测作用。

2605.13688 2026-05-14 cs.CV cs.LG

MedCore: Boundary-Preserving Medical Core Pruning for MedSAM

Cenwei Zhang, Suncheng Xiang, Lei You

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Technical University of Denmark（技术大学）

AI总结 MedCore 是一种针对 MedSAM 的结构化剪枝框架，旨在在保持医学图像分割边界精度的前提下显著压缩模型规模。该方法通过保留两种关键结构实现高效剪枝：一种是在 SAM 到 MedSAM 适配过程中变得重要的结构，另一种是具有高边界影响力的结构。实验表明，MedCore 在多项息肉分割基准测试中大幅减少了参数和计算量，同时保持了较高的 Dice 和边界指标，验证了其在医学图像分割中的有效性与可靠性。

Comments 3 figures, 17 pages

2605.13687 2026-05-14 cs.LG cs.AI stat.ML

A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning

Jason Gaitonde, Frederic Koehler, Elchanan Mossel, Joonhyung Shin, Allan Sly

发表机构 * Duke University（杜克大学）； University of Chicago（芝加哥大学）； Massachusetts Institute of Technology（麻省理工学院）； Princeton University（普林斯顿大学）

AI总结本文提出了一类具有层次结构的合成语言，并通过树上的广播过程生成，从而能够精确分析上下文长度和推理在自回归生成中的作用。研究引入了一种精确的$k$-gram假设来替代传统变换器模型，并通过实验证明其有效性。研究发现，在特定语言模型下，若上下文长度不足，生成结果将偏离真实语言分布，而具备推理能力的模型仅需对数长度的内存即可精确生成符合真实语言的序列，展现出指数级的性能提升。

2605.13686 2026-05-14 cs.CV cs.AI

Cross Modality Image Translation In Medical Imaging Using Generative Frameworks

Giulia Romoli, Alessia Capoccia, Filippo Ruffini, Francesco Di Feola, Luca Boldrini, Arturo Chiti, Renato Cuocolo, Tugba Akinci D'Antonoli, Fatemeh Darvizeh, Marcello Di Pumpo, Bradley J. Erickson, Liu Fang, Deborah Fazzini, Paola Feraco, Fabrizia Gelardi, Francesco Gossetti, Ana Isabel Hernáiz Ferrer, Michail E. Klontzas, Seyedmehdi Payabvash, Katrine Riklund, Sara N. Strandberg, Valerio Guarrasi, Paolo Soda

发表机构 * Department of Diagnostics and Intervention, Radiation Physics, Biomedical Engineering, Umeå University（诊断与介入部门、放射物理、生物医学工程，乌梅大学）； Unit of Artificial Intelligence and Computer Systems, Department of Engineering, Università Campus Bio-Medico di Roma（人工智能与计算机系统单位，工程部门，罗马生物医学学院）； Vita-Salute San Raffaele University（维塔-萨拉特·桑拉法埃莱大学）； Department of Medicine, Surgery and Dentistry, University of Salerno（医学、外科和牙科部门，萨勒诺大学）； Division of Diagnostic and Interventional Neuroradiology, Department of Radiology, University Hospital Basel（诊断和介入神经放射学部门，放射学部门，巴塞尔大学医院）； Department of Pediatric Radiology, University Children’s Hospital Basel（儿科放射学部门，巴塞尔儿童医院）； Department of Life Science and Public Health, Università Cattolica del Sacro Cuore（生命科学与公共健康部门，圣心大学）； Athinoula A. Martinos Center for Biomedical Imaging（阿提诺拉A·马里诺斯生物医学成像中心）； Artificial Intelligence and Translational Imaging (ATI) Lab, Department of Radiology, School of Medicine, University of Crete（人工智能与转化成像（ATI）实验室，放射学部门，医学院，克里特大学）； Division of Radiology, Department of Clinical Science, Intervention and Technology (CLINTEC), Karolinska Institute（放射学部门，临床科学、介入和科技（CLINTEC）部门，卡罗林斯卡研究所）； Columbia University Medical Center（哥伦比亚大学医学中心）； Department of Diagnostics and intervention, Diagnostic radiology, Umeå University（诊断与介入部门，诊断放射学，乌梅大学）

AI总结本文研究了医学影像中跨模态图像翻译的问题，旨在从源影像模态生成目标模态的图像，无需额外采集。作者提出了一种可复现、标准化的评估框架，对七种生成模型在多个临床任务和数据集上的性能进行了系统比较，发现基于生成对抗网络（GAN）的模型整体表现优于潜在生成模型，其中SRGAN在多项任务中表现最优。实验还揭示了模型在小病灶生成和定量指标与临床偏好之间的差异，表明合成影像在临床判别上已接近真实影像。

2605.13684 2026-05-14 cs.LG cs.IT math.IT

Scale-Sensitive Shattering: Learnability and Evaluability at Optimal Scale

Shashaank Aiyer, Yishay Mansour, Shay Moran, Han Shao, Tom Waknine

发表机构 * University of Maryland（马里兰大学）； Tel Aviv University and Google Research（特拉维夫大学和谷歌研究）； Technion and Google Research（技术学院和谷歌研究）

AI总结本文研究了实值函数类在最优尺度下表现出一致收敛和可学习性的条件。通过建立一个尺度敏感的PAC学习基本定理，作者证明了统一收敛、可学习性以及fat-shattering维数的有限性在特定尺度下是等价的，解决了关于学习性尺度的长期疑问，并改进了已有上界结果。研究还给出了关于fat-shattering尺度的精确度量熵界，并应用于积分概率度量的估计问题，揭示了其可估性与弱可评估性的二元性。

Comments 32 pages, 1 figure

2605.13681 2026-05-14 cs.LG stat.ML

Sampling from Flow Language Models via Marginal-Conditioned Bridges

Iskander Azangulov, Leo Zhang

发表机构 * Department of Statistics, University of Oxford（牛津大学统计系）

AI总结本文研究了如何从流语言模型（FLMs）中进行有效的采样，提出了一种基于边缘条件桥接的采样方法。与传统方法不同，该方法在每一步反向采样时，根据FLM的边缘后验分布生成干净的one-hot端点，并通过解析的Ornstein-Uhlenbeck桥接过程生成连续状态，从而更准确地保留语言模型的结构特性。该方法无需额外训练，能够自然地支持温度缩放和核截断等解码控制，实验表明其在生成质量与多样性之间取得了更好的平衡。

2605.13678 2026-05-14 cs.LG

Three-Stage Learning Unlocks Strong Performance in Simple Models for Long-Term Time Series Forecasting

Zhenan Yu, Guangxin Jiang, Jin Yang

发表机构 * Harbin Institute of Technology（哈尔滨工业大学）

AI总结本文提出了一种名为STAIR的三阶段训练框架，旨在在不引入复杂结构模块的情况下，充分发挥简单时间映射模型在长期时间序列预测中的潜力。STAIR通过共享时间映射学习变量间的通用动态，再逐个变量进行微调以捕捉特定模式，最后通过残差学习引入跨变量信息，逐步增强模型灵活性。实验表明，STAIR在九个长期预测基准上表现优异，验证了其在保持模型简洁性的同时实现高性能的有效性。

2605.13675 2026-05-14 cs.CV cs.LG q-bio.NC

Characterizing Universal Object Representations Across Vision Models

Florian P. Mahner, Johannes Roth, Ka Chun Lam, Michael F. Bonner, Francisco Pereira, Martin N. Hebart

发表机构 * Vision and Computational Cognition Group（视觉与计算认知组）； Max Planck Institute（马克斯·普朗克研究所）； Justus-Liebig-University Giessen（吉森约瑟夫·李贝大学）； Machine Learning Core（机器学习核心）； Department of Cognitive Science（认知科学系）； National Institute of Mental Health（国家心理健康研究所）； Johns Hopkins University（约翰霍普金斯大学）

AI总结本研究探讨了不同架构、目标函数和数据集训练的深度神经网络在视觉表征上的收敛现象，旨在揭示模型实际收敛于哪些视觉属性以及影响这一收敛的因素。通过将162个多样化视觉模型的对象相似性结构分解为少量非负维度，并分析这些维度在模型间的重复出现情况，研究发现部分维度具有跨模型的普遍性，且更易解释、更受图像语义属性驱动。研究还表明，模型的普遍性维度与灵长类动物视觉皮层活动和人类相似性判断的预测能力更强，暗示了这种普遍性可能反映了与生物视觉相关的表征特性。

2605.13673 2026-05-14 cs.LG

Graph Neural Networks with Triangle-Based Messages for the Multicut Problem

Jannik Irmai, Lucas Fabian Naumann, Bjoern Andres

发表机构 * Faculty of Computer Science, TU Dresden（德累斯顿理工大学计算机科学系）； Center for Scalable Data Analytics and AI, Dresden/Leipzig（德累斯顿/莱比锡可扩展数据分析与人工智能中心）

AI总结本文研究了用于多割问题的图神经网络方法，该问题是一个计算复杂度高的组合优化问题，在生物信息学、数据挖掘和计算机视觉等领域有广泛应用。作者提出了一种改进的图神经网络架构，其特征仅分配给边，并基于图中的三角形结构进行消息传递，以更好地适应多割问题的目标函数和约束条件。实验表明，该方法在保证运行时间可行的前提下，优于现有的启发式求解器，在部分实例中甚至能秒级找到最优解，而精确求解器则需要数小时。

Comments 21 pages, 5 figures

2605.13670 2026-05-14 cs.CV

Pattern-Enhanced RT-DETR for Multi-Class Battery Detection

Xu Zhong, Enyuan Hu

发表机构 * Independent Researcher（独立研究者）； Chemistry Division Brookhaven National Laboratory NY, USA（布鲁赫斯国家实验室化学部纽约美国）

AI总结本文针对多类别电池检测任务，提出了一种基于模式增强的RT-DETR方法PaQ-RT-DETR，通过引入基于模式的动态查询生成机制，有效缓解了查询激活不平衡问题，同时保持了较低的计算开销。研究在包含约8,591张标注图像的公开数据集上系统比较了多种检测模型，结果表明PaQ-RT-DETR-X在整体mAP@50指标上优于基线模型，尤其在数据稀缺的电池类别上表现突出，为电池相关工业应用中的目标检测模型选择提供了实用指导。

Comments 4 pages, 3 figures

2605.13667 2026-05-14 cs.CV

SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models

Vladislav Makarov, Mark Gizetdinov, Dmitry Yudin

发表机构 * MIRAI

AI总结 SceneGraphVLM 是一种基于视觉语言模型的紧凑方法，用于从图像和视频中生成结构化的场景图。该方法通过高效的 TOON 格式序列化图结构，并采用两阶段训练策略，结合监督微调和强化学习，以提升关系覆盖率和精确度，同时避免生成不相关对象和关系。在视频处理中，模型可通过前一帧生成的场景图提供轻量级的短期上下文，无需跟踪或后处理。实验表明，SceneGraphVLM 在多个数据集上实现了高质量与生成速度的良好平衡，并显著提升了场景图生成的精确度。

2605.13665 2026-05-14 cs.RO

Robot Squid Game: Quadrupedal Locomotion for Traversing Narrow Tunnels

Amir Hossain Raj, Dibyendu Das, Xuesu Xiao

发表机构 * Department of Computer Science, George Mason University（乔治·马歇尔大学计算机科学系）

AI总结本文研究了四足机器人穿越狭窄隧道等复杂三维环境的自主移动问题。为解决现有方法在适应多样化地形和复杂结构方面的不足，作者提出了一种结合过程化环境生成和策略蒸馏的强化学习框架，通过教师-学生训练范式，将针对不同隧道结构训练的专家策略知识迁移至统一的策略模型中。该方法无需复杂的奖励设计，有效提升了四足机器人在狭窄空间中的鲁棒性和通用性，并在仿真与实际实验中验证了其优越性。

2605.13664 2026-05-14 cs.CV physics.optics

HADAR-Based Thermal Infrared Hyperspectral Image Restoration

Cheng Dai, Jiale Lin, Bingxuan Song, Yifei Chen, Jiashuo Chen, Xin Yuan, Fanglin Bao

发表机构 * School of Science, Westlake University（西lake大学科学学院）； School of Engineering, Westlake University（西lake大学工程学院）

AI总结热红外高光谱图像（TIR-HSI）在许多应用中具有重要价值，但其实际应用受到传感器退化等因素的严重限制。本文提出了一种基于HADAR渲染方程的物理驱动框架HAIR，通过结合温度、发射率和纹理（TeX）三元组的物理模型，实现了对地面TIR-HSI的高精度恢复。该方法不仅保证了物理一致性与空间光谱噪声的鲁棒性，还通过大气下行辐射参考和发射率光谱平滑性实现了光谱校准与生成，实验表明其在去噪、修复、光谱校准和超分辨率等任务上均优于现有方法。

Comments 17 pages, 18 figures