arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.10850 2026-05-12 cs.CV

Verification Mirage: Mapping the Reliability Boundary of Self-Verification in Medical VQA

Ruinan Jin, Beidi Zhao, Myeongkyun Kang, Qiong Zhang, Xiaoxiao Li

发表机构 * The University of British Columbia（不列颠哥伦比亚大学）； Vector Institute（向量研究所）； Redmin University of China（红矿大学）

AI总结本文研究了医学视觉问答（VQA）中自验证机制的可靠性边界，指出当前常用的通过重新调用相同视觉语言模型（VLM）进行自验证的做法存在根本性不可靠的问题。作者提出了一种诊断框架，通过分解验证器的行为为判别能力和一致性偏差，揭示了验证器与生成器之间的能力耦合会导致“验证幻觉”现象，即在错误答案被错误接受的情况下，验证器错误率和一致性偏差同时升高的状态。实验表明，验证机制无法提供独立的安全保障，且在多轮交互中错误答案可能被错误验证所固化，凸显出自验证在实际临床应用中可能存在的严重风险。

Comments 31 pages, 12 figures

2605.10847 2026-05-12 cs.LG

Conditional anomaly detection methods for patient-management alert systems

Michal Valko, Gregory Cooper, Amy Seybert, Shyam Visweswaran, Melissa Saul, Miloš Hauskrecht

发表机构 * University of Pittsburgh, PA（匹兹堡大学）

AI总结本文研究了用于患者管理预警系统的条件异常检测方法，旨在从数据的子集属性中识别异常模式，且异常的判定依赖于其他属性的取值。研究聚焦于基于实例的条件异常检测方法，通过距离度量来识别数据集中对异常检测最关键的例子，并探讨了多种度量方式与度量学习方法以优化检测性能。实验结果表明，所提出的方法在检测社区获得性肺炎患者的异常入院决策和确认肝素诱导血小板减少症的HPF4检测异常订单等实际问题中具有显著优势。

Comments Published at Workshop on Machine Learning in Health Care Applications ICML-2008 - MLHealth

2605.10845 2026-05-12 cs.CV cs.CL

BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation

Qi Yang, Xiangyao Ma, Xiao Wang, Hao Wang, Rui Wang

发表机构 * School of Computer Engineering and Science, Shanghai University, Shanghai, China（1 上海大学计算机工程与科学学院，上海，中国）； Funstory.ai Limited, Hong Kong SAR, China（2 Funstory.ai有限公司，香港特别行政区，中国）； Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China（3 上海交通大学计算机科学与工程系，上海，中国）

AI总结随着跨语言交流的日益频繁，富含视觉内容的PDF等文档中的语言障碍仍然是一个实际瓶颈。现有文档翻译方法在语言处理与版式保留之间面临矛盾，BabelDOC通过引入中间表示框架，将视觉布局信息与语义内容解耦，实现了术语提取、跨页上下文处理等文档级翻译操作，并通过自适应排版引擎将翻译内容重新锚定到原始布局中。实验表明，BabelDOC在版式保真度、视觉美观性和术语一致性方面优于现有方法，同时保持了较高的翻译精度。

Comments ACL 2026 System Demonstration paper. 2 figures

2605.10835 2026-05-12 cs.CV cs.LG

Transcoda: End-to-End Zero-Shot Optical Music Recognition via Data-Centric Synthetic Training

Daniel Dratschuk, Paul Swoboda

发表机构 * Heinrich Heine University Düsseldorf（海因里希-海涅大学杜伊斯堡）

AI总结光学乐谱识别（OMR）任务面临缺乏大规模真实扫描数据集的瓶颈，现有方法多依赖少量样本迁移或过于简化的合成训练。本文提出Transcoda系统，通过改进的合成数据生成、**kern编码的规范化以及基于语法规则的解码方法，有效解决了乐谱文本编码的非唯一性问题。该方法在单块GPU上仅用6小时即可训练出一个5900万参数的紧凑模型，在合成乐谱数据集和历史波兰乐谱数据集上均取得优于现有方法的显著性能提升。

Comments 13 pages, 7 figures

2605.10834 2026-05-12 cs.AI cs.CR

From Controlled to the Wild: Evaluation of Pentesting Agents for the Real-World

Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

发表机构 * Ethiack Coimbra（Ethiack科英布拉）； Ethiack Porto（Ethiack波尔图）； University of Notre Dame（北德克萨斯大学）

AI总结本文提出了一种用于评估AI渗透测试代理在真实世界场景中表现的实用评估协议，旨在弥补现有基准在复杂性和战略决策方面的不足。该方法通过验证漏洞发现、结合基于大语言模型的语义匹配和双图分辨率评分等技术，能够在多攻击面和漏洞类别组成的复杂目标中进行更真实的评估。该协议不仅提升了AI渗透测试代理的比较分析的实用性，还提供了可复现的专家标注数据集和代码，推动了该领域的进一步研究。

2605.10833 2026-05-12 cs.CV cs.AI

MMVIAD: Multi-view Multi-task Video Understanding for Industrial Anomaly Detection

Xiran Zhao, Jing Jin, Yan Bai, Zhongan Wang, Yifeng Sun, Yihang Lou, Xuanyu Zhu, Tao Feng, Yingna Wu

发表机构 * ShanghaiTech University（上海科技大学）； Tsinghua University（清华大学）； Meituan Inc.（美团公司）； Peking University（北京大学）

AI总结本文提出MMVIAD，首个面向工业异常检测的多视角连续视频数据集，涵盖多种物体类别、环境和异常类型，并支持多项任务评估。为提升模型在细粒度缺陷识别和时序定位上的表现，研究设计了两阶段的后训练流程，显著提升了模型性能，优于现有主流模型。该工作为工业视频理解与异常检测提供了新的基准和方法。

2605.10831 2026-05-12 cs.LG cs.AI cs.CE cs.CL

SLIM: Sparse Latent Steering for Interpretable and Property-Directed LLM-Based Molecular Editing

Mingxu Zhang, Yuhan Li, Lujundong Li, Dazhong Shen, Hui Xiong, Ying Sun

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））； Nanjing University of Aeronautics and Astronautics（南京航空航天大学）； The 63rd Research Institute, National University of Defense Technology, Nanjing（国防科技大学第六三研究所，南京）

AI总结该研究提出了一种名为SLIM的可插拔框架，用于实现可解释且面向属性的基于大语言模型的分子编辑。SLIM通过稀疏自编码器将模型的隐藏状态分解为与分子属性对齐的稀疏特征，并利用可学习的重要性门控机制，从而在不修改模型参数的情况下，精准激活与目标属性相关的维度，显著提升了编辑成功率。实验表明，SLIM在多个分子属性和模型架构上均优于现有方法，最高提升了42.4个百分点。

2605.10828 2026-05-12 cs.AI

The First Drop of Ink: Nonlinear Impact of Misleading Information in Long-Context Reasoning

Muhan Gao, Zih-Ching Chen, Kuan-Hao Huang

发表机构 * Department of Computer Science ； Engineering, Texas A\&M University, College Station, TX, USA ； NVIDIA AI Technology Center, NVIDIA Corporation, Santa Clara, CA, USA

AI总结随着大语言模型在检索增强生成和智能代理系统中的广泛应用，理解干扰信息对长上下文推理性能的影响变得至关重要。本文系统研究了固定长度上下文中误导性文档比例与模型性能之间的非线性关系，发现误导信息比例增加初期性能急剧下降，之后影响趋于平缓，这一现象被形象地称为“第一滴墨水”效应。理论与实验分析表明，少量误导信息即可显著捕获模型注意力，而后续增加的干扰影响逐渐减弱，强调了提升检索阶段精度对改善模型性能的重要性。

2605.10823 2026-05-12 cs.LG

NoRIN: Backbone-Adaptive Reversible Normalization for Time-Series Forecasting

Shun Zhang, Yuyang Xiao

发表机构 * Graduate School of China Academy of Engineering Physics（中国工程物理研究院研究生部）； Institute of Applied Physics and Computational Mathematics（应用物理与计算数学研究院）

AI总结 NoRIN 是一种针对时间序列预测任务的非线性可逆归一化方法，旨在解决现有方法如 RevIN 在分布重塑能力上的不足。它基于 Johnson $S_U$ 分布的反双曲正弦变换，引入两个形状参数以灵活控制数据的尾部特征和偏度。通过将形状参数的优化与主网络训练解耦，NoRIN 能够更有效地适应不同模型结构的需求，实验表明不同主干网络需要不同的归一化参数才能发挥最佳性能。

Comments 8 pages, 2 figures

2605.10822 2026-05-12 cs.LG eess.SP

Benchmarking Sensor-Fault Robustness in Forecasting

Alexander Windmann, Philipp Wittenberg, Gianluca Manca, Marcel Dix, Jens U. Brandt, Oliver Niggemann

发表机构 * Helmut Schmidt University（海德堡-施密特大学）； Ruhr University Bochum（波恩鲁尔大学）； ABB Corporate Research（ABB企业研究）； TH Köln（科隆技术大学）； Leiden University（莱顿大学）

AI总结该论文提出了一种名为SensorFault-Bench的基准测试框架，用于评估预测模型在传感器故障情况下的鲁棒性。研究通过引入标准化的故障严重性模型和多个真实数据集，系统评估了不同预测架构和鲁棒性改进方法在多种故障场景下的表现，揭示了传统基于干净数据误差的模型排名可能与实际故障场景下的性能存在显著差异。该框架还提供了开源代码和数据接口，支持后续研究在统一协议下进行扩展和比较。

详情

英文摘要

Cyber-physical system (CPS) forecasting models depend on sensor streams with noisy, biased, missing, or temporally misaligned readings, yet standard forecasting evaluation often selects models by nominal error without showing whether they remain robust under such faults. We introduce SensorFault-Bench, a shared CPS-grounded sensor-fault stress-test protocol for evaluating forecasting architectures and robustness-improvement methods, and an operational taxonomy organizing the method comparison. Across four real-world datasets and eight scored scenarios governed by a standardized severity model, it reports worst-scenario degradation, clean mean squared error (MSE), and worst-scenario fault-time MSE, separating relative robustness from absolute error. A disjoint fault-transfer split lets explicit fault-training methods train on adjacent fault families while evaluation uses separate benchmark scenarios. Empirically, forecasting architectures favored by clean MSE can degrade sharply under faults, and clean-MSE rankings can disagree with worst-scenario fault-time error rankings. Chronos-2, the evaluated zero-shot foundation-model representative, matches or trails the last-value naive forecaster in clean MSE on the two single-target datasets and has the largest worst-scenario degradation on ETTh1 and Traffic, where all channels are forecast targets. For the evaluated robustness-improvement method set, paired deltas show selective degradation reductions: projected gradient descent adversarial training and randomized training lead where value faults dominate observed degradation, while fault augmentation leads where availability faults dominate. SensorFault-Bench provides open-source code, documented data access, and reproduction and extension guides, so new datasets, architectures, and robustness-improvement methods can be evaluated under the same CPS sensor-fault robustness protocol.

URL PDF HTML ☆

赞 0 踩 0

2605.10821 2026-05-12 cs.RO

Unified Noise Steering for Efficient Human-Guided VLA Adaptation

Junjie Lu, Xinyao Qin, Yuhua Jiang, Kaixin Wang, Chuheng Zhang, Bin Liang, Jun Yang, Min Xu, Li Zhao

发表机构 * University of Technology Sydney（悉尼技术大学）； Tsinghua University（清华大学）； Microsoft Research（微软研究院）

AI总结本文提出了一种统一的噪声引导框架UniSteer，用于高效的人类引导型视觉-语言-动作（VLA）模型适应。该方法通过近似动作到噪声的逆变换，将人类的纠正动作转化为对噪声变量的监督信号，从而在保持预训练VLA模型不变的前提下，仅更新轻量级策略网络，实现高效的策略优化。实验表明，UniSteer在多个现实机器人操作任务中表现出优越的适应效率，显著提升了任务成功率。

2605.10820 2026-05-12 cs.AI cs.LG

MaD Physics: Evaluating information seeking under constraints in physical environments

Moksh Jain, Mehdi Bennani, Johannes Bausch, Yuri Chervonyi, Bogdan Georgiev, Simon Osindero, Nenad Tomašev

发表机构 * Mila – Quebec AI Institute, Université de Montréal（Mila-魁北克人工智能研究所，蒙特利尔大学）； Google DeepMind（谷歌DeepMind）

AI总结本文提出了一种名为 MaD Physics 的新基准，用于评估智能体在物理环境中受测量质量和数量约束下的信息获取与科学推理能力。该基准包含三个基于不同物理定律的环境，并引入了修改后的物理定律以减少先验知识的干扰。智能体在有限的测量预算下进行实验，随后需推断出物理规律并进行未来状态预测，从而评估其模型推理与约束下的规划能力。研究还展示了该基准在评估多模态处理和上下文学习等能力方面的应用，并对多个 Gemini 模型进行了测试，指出了其在结构化探索和数据收集方面的不足。

Comments 64 pages, 10 figures. Project page: https://mad-physics.github.io/

2605.10817 2026-05-12 cs.AI

CLEF: EEG Foundation Model for Learning Clinical Semantics

Peng Cao, Ali Mirzazadeh, Jong Woo Lee, Aleksandar Videnovic, Dina Katabi

发表机构 * MIT CSAIL（麻省理工学院计算机科学与人工智能实验室）； Brigham and Women’s Hospital, Harvard Medical School（哈佛医学院布里奇沃特医院）； Massachusetts General Hospital, Harvard Medical School（哈佛医学院麻省总医院）

AI总结本文提出CLEF，一种基于临床语义的长上下文EEG基础模型，用于解决临床EEG解读中需要整合完整会话信号与临床背景的问题。CLEF通过三维多窗谱图分词和对比学习目标，将EEG会话与神经科报告及结构化电子健康记录对齐，实现了在大规模数据上的高效建模。实验表明，CLEF在包含234项任务的基准测试中显著优于现有模型，展示了其在临床EEG表征学习中的潜力。

2605.10816 2026-05-12 cs.LG cs.AI

Policy Gradient Methods for Non-Markovian Reinforcement Learning

Avik Kar, Siddharth Chandak, Rahul Singh, Soumitra Sinhahajari, Eric Moulines, Shalabh Bhatnagar, Nicholas Bambos

发表机构 * Department of Computer Science and Automation, Indian Institute of Science（印度科学研究院计算机科学与自动化系）； Department of Electrical Engineering, Stanford University（斯坦福大学电气工程系）； Department of Electrical and Electronics Engineering, Nanyang Technological University（南洋理工大学电气与电子工程系）； CMAP, CNRS, École polytechnique, Institut Polytechnique d́e Paris（巴黎理工学院先进材料与工艺中心、国家科学研究中心、巴黎理工学院）

AI总结本文研究了非马尔可夫强化学习中的策略梯度方法，针对观测和奖励依赖于完整交互历史的问题，提出了一种新的策略框架。该方法通过递归更新内部状态来压缩历史信息，并联合优化状态动态与控制策略以最大化累积奖励。作者建立了适用于非马尔可夫环境的策略梯度定理，并提出了ASMPG算法，实验表明其在多个非马尔可夫任务中优于基于预测目标的状态表示学习方法。

Comments 39 pages, 5 figures, 1 table

2605.10809 2026-05-12 cs.LG cs.DS

Mistake-Bounded Language Generation

Jon Kleinberg, Charlotte Peale, Omer Reingold

发表机构 * Departments of Computer Science and Information Science Cornell University（计算机科学与信息科学系，康奈尔大学）； Department of Computer Science Stanford University（计算机科学系，斯坦福大学）

AI总结本文研究了极限语言生成任务，提出了一种新的“错误有界生成”概念，关注生成算法在学习过程中累积错误的最小化，而非传统上关注最后一次错误的时间。通过形式化归约到“从正确示范中学习”框架，作者给出了计算错误界的一般方法，并针对有限和无限语言流分别提出了算法与理论分析，揭示了错误界与收敛性之间的根本权衡关系。此外，该框架还可扩展至应对噪声对手，保证错误界随对手的次优性进行扩展。

2605.10806 2026-05-12 cs.CV cs.AI cs.LG

PhyGround: Benchmarking Physical Reasoning in Generative World Models

Juyi Lin, Arash Akbari, Yumei He, Lin Zhao, Haichao Zhang, Arman Akbari, Xingchen Xu, Zoe Y. Lu, Enfu Nan, Hokin Deng, Edmund Yeh, Sarah Ostadabbas, Yun Fu, Jennifer Dy, Pu Zhao, Yanzhi Wang

发表机构 * Northeastern University（东北大学）； Tulane University（路易斯安那州立大学）； University of Washington（华盛顿大学）； Carnegie Mellon University（卡内基梅隆大学）

AI总结 PhyGround 是一个用于评估生成式世界模型物理推理能力的新基准，旨在解决现有视频生成模型在物理规律遵循性方面的评估难题。该基准包含250个精心设计的提示，每个提示附带预期的物理结果，并涵盖13类物理定律的分类体系。通过大规模、质量控制的人类标注实验和一个专门的物理推理视觉语言模型 PhyJudge-9B，PhyGround 能够对生成视频的物理合理性进行细粒度、可复现的评估，显著提升了评估的准确性与可靠性。

Comments Preprint. 56 pages, 39 figures, 40 tables. Project page: https://phyground.github.io/

2605.10805 2026-05-12 cs.AI cs.CL stat.ML

Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge

Wenbo Zhang, Lijinghua Zhang, Liner Xiang, Hengrui Cai

发表机构 * Department of Statistics, University of California, Irvine, USA（加州大学伊维特分校统计学系）

AI总结本文研究了在LLM作为裁判的场景下，推理能力带来的收益与成本之间的平衡问题。研究发现，推理在需要结构化验证的任务中显著提升判断准确性，但在简单任务中可能带来有限甚至负面效果，并伴随更高的计算成本。为此，作者提出了RACER方法，在固定预算下通过分布鲁棒优化动态选择是否启用推理，有效应对分布偏移，并在实验中展现出优越的准确率与成本平衡能力。

Comments Accepted at ICML 2026

2605.10804 2026-05-12 cs.AI cs.CY cs.HC

New AI-Driven Tools for Enhancing Campus Well-being: A Prevention and Intervention Approach

Jinwen Tang

发表机构 * Graduate School（研究生院）

AI总结本研究旨在提升校园心理健康水平，通过开发AI驱动的工具解决高校在学生满意度监测和心理风险检测方面的不足。研究提出了预防性工具TigerGPT和AURA，前者通过个性化聊天机器人提升调查参与度，后者利用强化学习优化对话质量；在干预方面，引入基于叙事故事的心理筛查方法，并开发了符合临床指南的PsychoGPT模型，结合多模型推理技术提高评估的准确性与可解释性。整体框架整合了这些工具，实现了从调研到心理干预的无缝衔接。

Comments PhD Dissertation, University of Missouri, May 2026

详情

英文摘要

Campus well-being underpins academic success, yet many universities lack effective methods for monitoring satisfaction and detecting mental health risks. This dissertation addresses these gaps through prevention (improving feedback collection) and intervention (advancing mental health detection), unified under an integrated framework. For prevention, we developed TigerGPT, a personalized survey chatbot leveraging LLMs to engage users in context-aware conversations grounded in conversational design and engagement theory, achieving 75% usability and 81% satisfaction. To address its limitations in repetitiveness and response depth, we introduced AURA, a reinforcement-learning framework that adapts follow-up question types (validate, specify, reflect, probe) within a session using an LSDE quality signal (Length, Self-disclosure, Emotion, Specificity), initialized from 96 prior conversations. AURA achieved +0.12 mean quality gain (p=0.044, d=0.66), with 63% fewer specification prompts and 10x more validation behavior. For intervention, we examine Expressive Narrative Stories (ENS) for mental health screening, showing BERT(128) captures nuanced linguistic features without keyword cues, while conventional classifiers depend heavily on explicit mental health terms. We then developed PsychoGPT, an LLM built on DSM-5 and PHQ-8 guidelines that performs initial distress classification, symptom-level scoring, and reconciliation with external ratings for explainable assessment. To reduce hallucinations, we proposed Stacked Multi-Model Reasoning (SMMR), layering expert models where early layers handle localized subtasks and later layers reconcile findings, outperforming single-model solutions on DAIC-WOZ in accuracy, F1, and PHQ-8 scoring. Finally, a cohesive framework unifies these tools, enabling adaptive survey insights to flow directly into specialized mental health detection models.

URL PDF HTML ☆

赞 0 踩 0

2605.10797 2026-05-12 cs.LG

Muown: Row-Norm Control for Muon Optimization

Kai Lion, Florian Hübler, Bingcong Li, Antonio Orvieto, Niao He

发表机构 * ETH Zurich（苏黎世联邦理工学院）； Technical University of Munich（慕尼黑技术大学）； ELLIS Institute Tübingen（图宾根ELLIS研究所）； MPI-IS Tübingen（图宾根MPI-IS）； Tübingen AI Center（图宾根人工智能中心）

AI总结本文研究了Muon优化器在大规模语言模型预训练中的权重衰减敏感性问题，发现其谱范数在训练过程中会上升，主要由行幅值因子驱动。为此，作者提出了一种改进方法Muown，将行幅值向量作为显式优化变量，在$\ell_\infty$几何下更新，其余部分仍使用Muon优化。实验表明，Muown在多个模型规模上均能提升困惑度，降低对权重衰减的敏感性，并有效抑制谱范数漂移。

2605.10796 2026-05-12 cs.AI

Interpretable Machine Learning for Football Performance Analysis: Evidence of Limited Transferability from Elite Leagues to University Competition

Yu-Fang Tsai, Yu-Jen Chen, Kok-Hua Tan, Sheng-Chieh Huang, You-Ying Ji, Yu-Lun Chen, Chun-Yi Wang, Chien-Ming Hsu

发表机构 * National Tsing Hua University（国立清华大学）

AI总结该研究探讨了从顶级职业足球联赛到大学足球比赛的领域迁移中，机器学习模型可解释性是否保持稳定。通过在欧洲五大联赛数据上训练随机森林和多层感知机模型，并应用于清华大学足球队数据，发现顶级联赛中的表现决定因素具有稳定的层次结构，而大学联赛中关键指标的排序发生显著变化，解释结果的稳定性下降。研究指出，模型的可解释性在不同领域间存在显著差异，这一现象可能反映目标领域的结构模糊性，而非方法本身的局限。

Comments 19 pages, 6 figures

2605.10793 2026-05-12 cs.LG

ConQuR: Corner Aligned Activation Quantization via Optimized Rotations for LLMs

Chayne Thrash, Ali Abbasi, Soheil Kolouri

发表机构 * Department of Computer Science（计算机科学系）

AI总结大型语言模型（LLMs）因内存占用大、推理成本高而难以部署。本文提出一种轻量级的后训练旋转校准方法ConQuR，通过学习正交旋转将归一化激活对齐到内切超立方体的顶点，使激活能量在各维度上更均匀分布，从而提升低比特激活量化效果。该方法通过正交Procrustes问题实现高效的闭式更新，避免了对正交群的梯度优化，并引入在线校准流程以适应量化后的激活分布，无需存储大量激活数据。实验表明，该方法在多个基准测试中表现优异，同时避免了昂贵的端到端训练和大规模离线存储需求。

2605.10791 2026-05-12 cs.AI

PathISE: Learning Informative Path Supervision for Knowledge Graph Question Answering

Shengxiang Gao, Chao Lei, Jey Han Lau, Jianzhong Qi

发表机构 * The University of Melbourne（墨尔本大学）

AI总结知识图谱问答（KGQA）旨在通过推理知识图谱来回答用户问题。当前方法多依赖检索增强生成范式，但训练过程中需要高质量的中间监督信号（如相关路径或子图），获取成本较高。本文提出PathISE框架，通过一个轻量的基于Transformer的估计器从答案标签中学习高质量的路径级监督，并将其蒸馏到路径生成模型中，从而生成可用于归纳推理的紧凑证据。实验表明，PathISE在多个基准上表现优异，并能提供可复用的监督信号以增强现有模型。

2605.10790 2026-05-12 cs.LG

Elucidating Representation Degradation Problem in Diffusion Model Training

Zhipeng Yao, Dazhou Li, Zitong Zhang, Durude Mahee, Fan Zhu, Wenbin Zhang, Xinwei He, Yeying Jin, Rui Yu

发表机构 * University of Louisville（路易斯维尔大学）； National University of Singapore（新加坡国立大学）； Florida International University（佛罗里达国际大学）； Shenyang University of Chemical Technology（沈阳化学工业大学）； Huazhong Agricultural University（华中农业大学）

AI总结扩散模型在生成任务中表现出色，但在训练过程中存在效率低下的问题，这主要归因于一种称为“表示退化”的优化瓶颈。随着噪声水平的增加，模型输出会出现结构扭曲，影响训练稳定性与生成质量。本文分析指出，这一问题源于目标可恢复性不匹配，并与神经切线核谱减弱和有效低秩行为有关。为此，作者提出了一个即插即用的框架Elucidated Representation Diffusion（ERD），通过动态分配优化资源以稳定表示学习，从而加速收敛并提升多种扩散模型的生成性能。

2605.10789 2026-05-12 cs.CV

Rapid Forest Fuel Load Estimation via Virtual Remote Sensing and Metric-Scale Feed-Forward 3D Reconstruction

Quanyun Wu, Kyle Gao, Wentao Sun, Zhengsen Xu, Hudson Sun, Linlin Xu, Yuhao Chen, David A. Clausi, Jonathan Li

发表机构 * University of Waterloo（滑铁卢大学）； University of Calgary（卡尔加里大学）

AI总结本文提出了一种基于虚拟遥感数据和度量级前馈3D重建的快速森林燃料载荷估计方法，旨在解决传统方法成本高、耗时长的问题。该方法利用Google Earth Studio生成低空轨道图像和相机位姿，结合改进的Pi-Long模型进行密集3D重建，并通过度量恢复模块解决单目重建的尺度模糊问题，最终生成鸟瞰图高度和密度图，进而实现树种分类、叶面积指数计算和燃料载荷估计。实验表明，该方法在保证几何一致性的同时，提供了高效、低成本的森林生物量估算方案。

Comments Accepted for publication at IEEE IGARSS 2026

2605.10784 2026-05-12 cs.LG

MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization

Rohan Surana, Xintong Li, Sheldon Yu, Yiran Jenny Shen, Chuhan Wang, Tong Yu, Prithviraj Ammanabrolu, Jingbo Shang, Julian McAuley, Junda Wu

发表机构 * UC San Diego（UC圣地亚哥大学）； Adobe Research（Adobe研究院）

AI总结本文提出了一种名为MASS-DPO的多负样本主动选择方法，用于改进直接策略优化（DPO）中的多负偏好优化。该方法基于Plackett-Luce模型，通过引入一个特定的Fisher信息目标，从每个提示中选择信息量大且冗余少的负样本子集，从而在保持整体信息完整性的前提下减少计算开销。实验表明，MASS-DPO在多个基准任务中表现出更高的准确率和更好的优化动态，同时使用更少的负样本即可实现更强的模型对齐效果。

2605.10782 2026-05-12 cs.AI

TrajPrism: A Multi-Task Benchmark for Language-Grounded Urban Trajectory Understanding

Lihuan Li, Wilson Wongso, Baiyu Chen, Hao Xue, Ruiyi Yang, Yifan Duan, Xiachong Lin, Yang Song, Flora Salim

发表机构 * UNSW Sydney（新南威尔士大学悉尼分校）； HKUST (GZ)（香港科技大学（广州））

AI总结 TrajPrism 是一个面向语言引导的城市轨迹理解的多任务基准，旨在统一轨迹生成、语义轨迹检索和轨迹描述等任务，并评估轨迹的准确性、检索质量与语言关联性。该基准通过将真实城市轨迹与经过筛选的语言注释相结合，构建了涵盖波尔图、旧金山和北京等城市的30万条轨迹，生成了210万条任务实例。研究还提出了针对各任务的概念性模型，验证了仅依赖几何信息的轨迹方法在涉及语言交互的任务中存在明显不足。

Comments This paper is under review

2605.10781 2026-05-12 cs.LG cs.CL

Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR

Jeonghye Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang

发表机构 * Microsoft Research（微软研究院）； KAIST（韩国科学技术院）

AI总结该研究提出了一种名为RLRT的新方法，通过逆向利用自蒸馏中的教师信号，引导学生模型在成功路径上进行有价值的探索。与传统自蒸馏在成功时抑制学生自主推理不同，RLRT强调学生自身成功路径中的推理过程，并将其作为强化学习的奖励信号。实验表明，RLRT在多种Qwen3模型上显著优于现有自蒸馏和探索基线，为RLVR提供了新的设计原则。

2605.10777 2026-05-12 cs.LG

Locking Pretrained Weights via Deep Low-Rank Residual Distillation

Keitaro Sakamoto, Pierre Ablin, Federico Danieli, Marco Cuturi

发表机构 * Apple（苹果公司）

AI总结近年来，开源权重的语言模型质量显著提升，但其权重的自由修改可能带来安全风险。为此，本文提出了一种新型防御方法DLR-Lock，通过将预训练模型中的多层感知机替换为参数量相当的深度低秩残差网络（DLR-Net），利用反向传播过程中激活内存随深度线性增长的特性，增加模型微调时的优化难度。实验表明，该方法在不影响模型原有性能的前提下，有效抵御了具有完整防御策略知识的自适应攻击者。

2605.10772 2026-05-12 cs.CV cs.AI eess.IV

Towards a Large Language-Vision Question Answering Model for MSTAR Automatic Target Recognition

David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

发表机构 * SenSIP Center, School of ECEE, Arizona State University（SenSIP中心，电子与计算机工程学院，亚利桑那州立大学）； Prime Solutions Group

AI总结本文研究了将大语言-视觉模型（LLVM）应用于合成孔径雷达（SAR）图像的目标识别任务，特别是在军事车辆自动目标识别（ATR）中的应用。通过构建基于MSTAR公开数据集的训练与评估基准，并引入描述性文本和问答对，作者探索了LLVM在遥感图像描述和视觉问答（VQA）中的性能。实验表明，使用参数高效的微调方法，模型在识别细粒度目标特征方面达到了98%的准确率，为机器辅助的军事和情报遥感目标识别提供了新的技术路径。

Comments Accepted to SPIE Defense + Commercial Sensing, Automatic Target Recognition XXXV

Journal ref Proc. SPIE 13463, Automatic Target Recognition XXXV, 134630D (29 May 2025);

详情

DOI: 10.1117/12.3053859

英文摘要

Large language-vision models (LLVM), such as OpenAI's ChatGPT and GPT-4, have gained prominence as powerful tools for analyzing text and imagery. The merging of these data domains represents a significant paradigm shift with far-reaching implications for automatic target recognition (ATR). Recent transformer-based LLVM research has shown substantial improvements for geospatial perception tasks. Our study examines the application of LLVM to remote sensing image captioning and visual question-answering (VQA), with a specific focus on synthetic aperture radar (SAR) imagery. We examine newly published LLVM methods, including CLIP and LLaVA neural network transformer architectures. We have developed a work-in-progress SAR training and evaluation benchmark derived from the MSTAR Public Dataset. This has been extended to include descriptive text captions and question-answer pairs for VQA tasks. This challenge dataset is designed to push the boundaries of an LLVM in identifying nuanced ATR details in SAR imagery. Utilizing parameter-efficient fine-tuning, we train an LLVM method to identify fine-grained target qualities at 98% accuracy. We detail our data setup and experiments, addressing potential pitfalls that could lead to misleading conclusions. Accurately identifying and differentiating military vehicle types in SAR data poses a critical challenge, especially under complex environmental conditions. Mastering this target recognition skill may require a human analyst months of training and years of practice. This research represents a unique effort to apply LLVM to SAR applications, advancing machine-assisted remote sensing ATR for military and intelligence contexts.

URL PDF HTML ☆

赞 0 踩 0

2605.10770 2026-05-12 cs.LG

DynaMiCS: Fine-tuning LLMs with Performance Constraints using Dynamic Mixtures

Eleonora Gualdoni, Sonia Laguna, Louis Bethune, Joao Monteiro, Pierre Ablin, Marco Cuturi

发表机构 * Apple（苹果公司）

AI总结本文提出了一种名为DynaMiCS的动态混合优化方法，用于在微调大语言模型时同时提升目标领域的性能并保持约束领域的性能。该方法通过在每次更新时进行短期的领域特定训练，估计各领域间的交叉影响，并据此动态计算混合权重，从而在优化目标领域表现的同时确保约束领域的损失不超过参考阈值。实验表明，DynaMiCS在多种多领域微调场景中相比固定混合方法取得了更优的性能提升和更高的约束满足度，且计算成本更低，无需参考模型或手动调参。