arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.15199 2026-05-15 cs.CV cs.AI 版本更新

EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation

Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez

发表机构 * ByteDance（字节跳动）； ByteDance Seed（字节跳动种子）； Rice University（罗切斯特大学）

AI总结 EntityBench 是一个用于评估多镜头视频生成中实体一致性能力的基准数据集，包含140个情节（共2,491个镜头），从真实叙事媒体中提取，涵盖不同难度级别的场景，并明确追踪角色、物体和地点在多镜头间的连续性。该基准引入了三部分评估体系，分别评估单镜头质量、提示对齐度和跨镜头一致性，并通过“保真度门”机制确保只有准确的实体表现在跨镜头评分中被计入。研究还提出了一种基于记忆增强的生成方法EntityMem，通过在生成前存储每个实体的视觉参考，显著提升了跨镜头实体一致性表现。

Comments Project page: https://catherine-r-he.github.io/EntityBench/

2605.15198 2026-05-15 cs.CV cs.AI cs.CL 版本更新

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng

发表机构 * Meta AI ； The Chinese University of Hong Kong（香港中文大学）

AI总结该研究提出了一种名为ATLAS的新型视觉推理框架，旨在解决传统方法在计算开销和任务泛化上的不足。ATLAS通过一个单一的离散“功能词”同时实现代理式推理和潜在视觉推理，无需视觉监督且兼容标准训练流程。研究还引入了LA-GRPO方法以提升训练稳定性，实验表明ATLAS在多个基准上表现出色，兼具高效性与可解释性。

Comments Project Page: https://atlas-oneword.github.io Code: https://github.com/ZiyuGuo99/ATLAS

2605.15188 2026-05-15 cs.LG cs.AI cs.CL 版本更新

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andriushchenko, Jonas Geiping

发表机构 * ELLIS Institute Tübingen（图宾根ELLIS研究所）； Max Planck Institute for Intelligent Systems（智能系统马克斯·普朗克研究所）； Institute for AI, University of Stuttgart（斯图加特大学人工智能研究所）； Tübingen AI Center（图宾根人工智能中心）； University of Tübingen（图宾根大学）； University of Southampton（南安普顿大学）

AI总结本文提出 FutureSim，一个用于评估适应性人工智能代理在真实世界事件预测能力的基准平台。该平台通过按时间顺序回放真实新闻事件，测试代理在知识截止点之后预测未来事件的能力。实验表明，现有前沿代理在三月份的预测准确率普遍较低，最高仅为25%，揭示了当前模型在长期适应和不确定性推理方面仍存在显著挑战。FutureSim 为研究长期适应、搜索、记忆和不确定性推理等方向提供了现实可靠的实验环境。

Comments 31 pages, 10 main

2605.15185 2026-05-15 cs.CV cs.AI 版本更新

Quantitative Video World Model Evaluation for Geometric-Consistency

Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou

发表机构 * Tsinghua University - IEI Lab（清华大学-IEI实验室）； UW-Madison（威斯康星大学麦迪逊分校）； Adobe Research（Adobe研究院）

AI总结本文提出了一种名为PDI-Bench的定量评估框架，用于检测生成视频中的几何一致性问题。该方法通过分割和点追踪获取物体中心视角的观测信息，结合单目重建技术将其映射到三维空间，并计算反映尺度-深度对齐、三维运动一致性和结构刚性等三个失败维度的投影几何残差。研究还构建了PDI-Dataset，用于系统评估生成视频的几何特性，揭示了现有生成模型在物理合理性方面的不足。

Comments 12 pages, 5 figures. Project page : https://pdi-bench.github.io/

2605.15179 2026-05-15 cs.LG cs.AI physics.comp-ph 版本更新

Eradicating Negative Transfer in Multi-Physics Foundation Models via Sparse Mixture-of-Experts Routing

Ellwil Sharma, Arastu Sharma

发表机构 * Shodh AI

AI总结该论文研究了如何消除多物理场基础模型中的负迁移问题，即在同时训练不同偏微分方程（PDE）系统时出现的梯度冲突和优化不稳定现象。为此，作者提出了一种基于稀疏激活的混合专家（MoE）架构Shodh-MoE，通过物理感知的自编码器生成压缩的物理潜在表示，并结合软语义路由策略，将不同物理机制的局部潜在块分配给专门的专家子网络，从而实现对多物理场的高效且稳定的建模。实验表明，该方法在保持质量守恒的同时，显著提升了模型在不同物理场景下的预测精度。

Comments 5 pages, 4 figures

2605.15171 2026-05-15 cs.CV cs.AI cs.LG 版本更新

Evidential Reasoning Advances Interpretable Real-World Disease Screening

Chenyu Lian, Hong-Yu Zhou, Jing Qin

发表机构 * The Center for Smart Health, School of Nursing, the Hong Kong Polytechnic University, Hong Kong, China（智能健康中心，护理学院，香港理工大学，香港，中国）； Research Institute for Smart Ageing, the Hong Kong Polytechnic University, Hong Kong, China（智能老龄化研究 institute，香港理工大学，香港，中国）； School of Biomedical Engineering, Tsinghua Medicine, Tsinghua University, Beijing, China（生物医学工程学院，清华大学，北京，中国）

AI总结本文提出了一种基于证据推理的可解释疾病筛查框架EviScreen，旨在解决当前医学图像筛查模型在可解释性和性能上的不足。该方法通过从历史病例中检索区域级证据，并结合双知识库进行回顾性解释，提升了模型的透明度和诊断准确性。同时，利用对比检索生成的异常图增强定位解释性，实验表明该方法在真实世界疾病筛查基准上表现出色，尤其在临床召回率下的特异性显著提高。

Comments ICML 2026

2605.15168 2026-05-15 cs.CL cs.AI cs.LG stat.ML 版本更新

Text Knows What, Tables Know When: Clinical Timeline Reconstruction via Retrieval-Augmented Multimodal Alignment

Sayantan Kumar, Shahriar Noroozizadeh, Juyong Kim, Jeremy C. Weiss

发表机构 * National Library of Medicine National Institutes of Health（国家医学图书馆国立卫生研究院）； Carnegie Mellon University（卡内基梅隆大学）

AI总结本研究旨在解决临床文本与结构化电子健康记录（EHR）在时间信息上的互补性问题，提出了一种基于检索增强的多模态对齐框架，用于重建更精确的临床时间线。该方法通过从文本中提取关键事件构建时间框架，并结合结构化数据中的时间信息进行校准，从而提升时间戳的准确性。实验表明，该方法在多个模型上均显著提升了时间一致性，同时保留了事件匹配率，展示了多模态对齐在临床轨迹重建中的优势。

Comments Sayantan Kumar, Shahriar Noroozizadeh, Juyong Kim (authors contributed equally)

2605.15164 2026-05-15 cs.LG cs.AI 版本更新

Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands

Pratinav Seth, Vinay Kumar Sankarapu

发表机构 * Lexsi Labs（Lexsi实验室）

AI总结本文指出，当前的行为保障方法无法满足AI治理框架对安全性的验证需求。治理框架要求验证AI系统是否存在隐藏目标、抗失控能力及灾难性能力边界等属性，但现有方法仅能观察模型输出，无法验证其潜在表征和长期行为。文章提出“审计鸿沟”概念，强调验证需求与技术能力之间的不匹配，并建议通过法律文本中限制行为证据的权重、引入机制性验证手段等方式进行技术转向。

2605.15155 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Self-Distilled Agentic Reinforcement Learning

Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

发表机构 * Zhejiang University（浙江大学）； Meituan（美团）； Tsinghua University（清华大学）

AI总结该论文研究了如何提升基于强化学习（RL）的大型语言模型代理在多轮任务中的性能。为了解决传统RL在长序列任务中监督信号过于稀疏的问题，作者提出了自蒸馏代理强化学习（SDAR），通过将基于教师分支的密集令牌级指导作为辅助目标，与主RL优化框架结合。SDAR通过引入一个门控机制，增强对教师认可的正向令牌的蒸馏效果，同时柔和地抑制教师的负向拒绝，从而在多个基准任务上显著提升了性能，并避免了传统方法的不稳定性。

2605.15132 2026-05-15 cs.AI cs.DC cs.MA 版本更新

APWA: A Distributed Architecture for Parallelizable Agentic Workflows

Evan Rose, Tushin Mallick, Matthew D. Laws, Cristina Nita-Rotaru, Alina Oprea

发表机构 * Northeastern University（东北大学）

AI总结本文提出了一种名为APWA的分布式架构，旨在高效处理高度可并行化的智能体工作负载。该架构通过将任务分解为互不干扰的子问题，实现无需跨通信的独立资源处理，从而克服了传统多智能体系统在推理、协调和计算扩展方面的瓶颈。实验表明，APWA能够动态地将复杂查询分解为可并行执行的工作流，并在任务规模增大时实现有效扩展，优于现有系统。

Comments 25 pages, 2 figures, 14 tables

2605.15127 2026-05-15 cs.HC cs.AI 版本更新

Understanding How International Students in the U.S. Are Using Conversational AI to Support Cross-Cultural Adaptation

Laleh Nourian, Anisa Callis, Stephanie Patterson, Jadeline Miao, Jamison Heard, Garreth W. Tigwell

发表机构 * Rochester Institute of Technology（罗切斯特理工学院）； School of Information（信息学院）

AI总结本文研究了在美国留学的国际学生如何使用对话式人工智能来支持跨文化适应。通过调查和访谈，研究揭示了国际学生在面临文化适应挑战时对AI工具的使用模式、动机及局限性。研究发现，AI被视为应对即时问题的“急救工具”，但学生也期望其能发展为长期支持伙伴。研究为设计更贴合国际学生需求的AI支持系统提供了重要建议。

Comments 33 pages, single column. 4 figures, 9 tables

2605.15109 2026-05-15 cs.AI cs.IR 版本更新

Why Neighborhoods Matter: Traversal Context and Provenance in Agentic GraphRAG

Riccardo Terrenzi, Maximilian von Zastrow, Serkan Ayvaz

发表机构 * Centre for Industrial Software, University of Southern Denmark, Alsion 2, 6400 Sønderborg, Denmark（丹麦南部大学工业软件中心）

AI总结本文研究了在Agentic GraphRAG系统中，如何确保引用的可信性，提出引用的忠实性应从整体图遍历路径的角度来评估，而不仅仅是依赖引用的来源内容。研究通过控制实验分析了引用与未引用实体对答案生成的影响，发现引用证据虽重要，但准确回答还依赖于未引用的遍历上下文和图结构。该研究为评估这类系统中的引用质量提供了新的视角，强调应关注更广泛的检索轨迹来源。

Comments 7 pages, 2 figures, Submitted at IJCAI-ECAI 2026 Joint Workshop on GENAIK and NORA

2605.15102 2026-05-15 cs.CL cs.AI 版本更新

Improving Multi-turn Dialogue Consistency with Self-Recall Thinking

Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang

发表机构 * University of Electronic Science and Technology of China（电子科技大学）

AI总结本文研究了基于大语言模型的多轮对话系统在处理长对话时面临的上下文依赖和信息稀疏问题，提出了一种名为Self-Recall Thinking（SRT）的框架，通过构建自召回链、初始化推理能力以及优化推理过程，实现了对历史信息的选择性回忆与推理，从而在保持推理准确性的同时提升了系统效率。实验表明，SRT在多个数据集上有效提升了F1分数并降低了端到端延迟，优于现有先进方法。

2605.15100 2026-05-15 cs.AI 版本更新

Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling

Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li, Hang Yan

发表机构 * Xi’an Jiaotong University（西安交通大学）

AI总结本文研究了在推理时对大语言模型进行适应性扩展时如何平衡计算预算与推理质量的问题。为解决现有方法中宽度与深度优化目标相互独立导致的效率与准确性难以兼顾的问题，作者提出了双维度一致性（DDC）框架，通过结合置信度加权的贝叶斯协议和趋势感知分层剪枝策略，有效集中计算资源于高质量推理路径，从而减少幻觉并加速共识形成。实验表明，该方法在多个基准上显著降低了计算开销，同时保持或超越了现有强基线的准确性。

2605.15083 2026-05-15 cs.LG cs.AI 版本更新

Novel Dynamic Batch-Sensitive Adam Optimiser for Vehicular Accident Injury Severity Prediction

Daniel Asare Kyei, Alimatu Saadia-Yussiff, Maame G. Asante-Mensah, Abdul Lateef-Yussiff, Charles Roland Haruna, Derry Emmanuel

发表机构 * Department of Computer Science and Information Technology, University of Cape Coast（计算机科学与信息技术系，卡贝 Coast 大学）

AI总结该研究提出了一种名为DBS-Adam的动态批敏感优化器，用于解决车辆事故伤害严重程度预测中的类别不平衡和序列数据处理问题。DBS-Adam通过计算梯度范数和批次损失的指数移动平均来动态调整学习率，从而提升训练稳定性并加速收敛。实验表明，DBS-Adam在测试集上取得了较高的准确率和精确率，并在与多种先进优化器的对比中表现出显著优势，验证了其在处理不平衡序列数据任务中的有效性。

2605.15081 2026-05-15 cs.CL cs.AI 版本更新

ML-Embed: Inclusive and Efficient Embeddings for a Multilingual World

Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang

发表机构 * School of Computer Science, Shanghai Jiao Tong University, Shanghai, China（上海交通大学计算机科学学院）

AI总结本文提出了一种名为 ML-Embed 的多语言嵌入框架，旨在解决当前高质量文本嵌入发展中存在的计算成本高、语言覆盖有限和模型透明度不足等问题。基于三维俄罗斯套娃学习（3D-ML）框架，该方法在模型生命周期中实现了全面的效率优化，并通过多语言数据集和参数规模从1.4亿到80亿的模型套件，提升了参数效率和语言包容性。实验表明，ML-Embed 在多个基准测试中表现优异，尤其在低资源语言上取得了显著成果，为构建公平且高效的全球AI系统提供了可复现的解决方案。

Comments Accepted by ICML 2026. The data has been released earlier in the preprint arXiv:2603.19223

2605.15077 2026-05-15 cs.CL cs.AI cs.LG 版本更新

Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs

Guangyu Feng, Huanzhi Mao, Prabal Dutta, Joseph E. Gonzalez

发表机构 * University of California, Berkeley（加州大学伯克利分校）

AI总结本文提出了一种名为 AsyncFC 的纯执行层框架，旨在在不改变模型结构和函数实现的前提下，实现大型语言模型（LLM）的异步函数调用。该方法通过解耦模型解码与函数执行，使得两者可以并行进行，从而显著降低任务完成的端到端延迟。实验表明，AsyncFC 在多个基准测试中有效提升了任务处理效率，同时保持了任务准确性，并揭示了 LLM 本身具备处理未决执行结果的符号化未来（symbolic futures）的能力。

2605.15071 2026-05-15 cs.CV cs.AI cs.CL 版本更新

On the Cultural Anachronism and Temporal Reasoning in Vision Language Models

Mukul Ranjan, Prince Jha, Khushboo Kumari, Zhiqiang Shen

发表机构 * MBZUAI ； Inception

AI总结该研究指出视觉语言模型在处理文化遗产材料时存在“文化时差”问题，即模型倾向于用不符合历史时期的概念、材料或文化框架来误解历史文物。为此，研究者构建了TAB-VLM基准数据集，包含1600件印度不同时期的文化遗物和600个问题，用于评估模型的时序推理能力。实验表明，即使是最先进的模型在该基准上的表现也有限，揭示了当前视觉语言模型在理解和处理非西方文化历史材料方面仍存在显著不足。

Comments Project Page: https://khushboo0012.github.io/tab-vlm-webpage/

2605.15058 2026-05-15 cs.NE cs.AI 版本更新

NeuroTrain: Surveying Local Learning Rules for Spiking Neural Networks with an Open Benchmarking Framework

Alessio Caviglia, Filippo Marostica, Roberta Bardini, Alessandro Savino, Stefano Di Carlo

发表机构 * Politecnico di Torino, Control and Computer Engineering Department（托里尼理工大学控制与计算机工程系）

AI总结本文综述了脉冲神经网络（SNN）训练算法的最新进展，系统梳理了包括替代梯度反向传播、局部学习规则、生物启发可塑性机制等在内的多种方法，并提出了一个统一的分类体系。为支持可复现的研究，作者开发了开源框架NeuroTrain，实现了多种典型算法，提供了统一、模块化且可扩展的基准测试平台。该工作整合了分散的文献资源，明确了当前挑战与未来研究方向，为高效、可扩展的SNN训练提供了重要参考。

2605.15044 2026-05-15 cs.SD cs.AI cs.LG cs.MM eess.AS 版本更新

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

KiHyun Nam, Jungwoo Heo, Siu Bae, Ha-Jin Yu, Joon Son Chung

发表机构 * Korea Advanced Institute of Science and Technology (KAIST)（韩国科学技术院）； University of Seoul（首尔大学）

AI总结随着物理人工智能、对话机器人和无屏可穿戴设备的发展，音频大语言模型需要具备针对说话人的理解能力，以支持用户认证、个性化和上下文感知交互。为此，本文提出 SpeakerLLM，一种专门针对说话人的音频大语言模型框架，能够统一处理单句说话人画像、录音条件理解、双句说话人对比以及基于证据的验证推理。其核心是采用分层说话人分词器，分别捕捉说话人身份和录音条件的多粒度信息，并通过结构化推理轨迹提升验证推理的准确性和可解释性。

2605.15042 2026-05-15 cs.CV cs.AI 版本更新

EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

Wuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi

发表机构 * EPFL（瑞士联邦理工学院）

AI总结 EverAnimate 是一种高效的后训练方法，用于生成高质量的长时域动画视频，能够保持视觉质量和角色身份的一致性。该方法通过引入持久潜空间传播和修复流匹配两种机制，解决了长视频生成中由于分块生成导致的细节退化和语义不一致问题。实验表明，仅需轻量的LoRA调优，EverAnimate 在短时和长时动画生成任务中均优于现有方法，显著提升了图像保真度和视觉质量。

Comments Project Page: https://everanimate.github.io/homepage/

2605.15041 2026-05-15 cs.AI cs.CL 版本更新

Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao, Xiaosong Zhang

发表机构 * University of Electronic Science and Technology of China（电子科技大学）

AI总结本文研究了如何通过案例驱动的方法提升大语言模型在工具使用中的推理与执行能力。提出了一种名为CAST的框架，该框架将历史执行轨迹作为结构化案例，提取案例中的复杂性与失败特征，用于指导模型优化推理策略并避免结构错误。实验表明，CAST在保持执行结构正确性的同时提高了工具使用成功率，并减少了不必要的推理步骤，显著提升了整体性能。

2605.15034 2026-05-15 cs.CL cs.AI cs.CY cs.MA 版本更新

AI Knows When It's Being Watched: Functional Strategic Action and Contextual Register Modulation in Large Language Models

Vinicius Covas, Jorge Alberto Hidalgo Toledo

发表机构 * Center for Applied Communication Research (CICA)（应用沟通研究中心）； Human & NonHuman Communication Laboratory（人类与非人类沟通实验室）； Faculty of Communication（传播学院）； Universidad Anáhuac México（墨西哥安纳胡阿克大学）

AI总结本研究探讨了大型语言模型（LLM）在感知到社会观察情境时是否会产生系统性的语言适应行为，这一问题对AI治理和审计具有重要意义。基于社会学理论，研究通过控制实验分析了不同观察情境下多智能体辩论系统的行为变化，发现模型在面对人类或AI观察者时会表现出不同的语言风格调整，表明其行为对观察者身份敏感。研究结果为理解LLM作为情境敏感的沟通主体提供了新视角，并对算法审计和AI治理提出了启示。

Comments 20 pages, 6 figures

2605.15030 2026-05-15 cs.CR cs.AI 版本更新

WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections

Tri Cao, Yulin Chen, Hieu Cao, Yibo Li, Khoi Le, Thong Nguyen, Yuexin Li, Yufei He, Yue Liu, Shuicheng Yan, Bryan Hooi

发表机构 * National University of Singapore（新加坡国立大学）； University of Science（科学大学）； Vietnam National University, Ho Chi Minh City（越南国家大学，胡志明市）

AI总结本文提出WARD，一种针对网络代理的对抗性鲁棒防御方法，用于抵御HTML内容或视觉界面中的提示注入攻击。WARD基于大规模数据集WARD-Base和专门设计的攻击数据集WARD-PIG进行训练，并引入了A3T自适应对抗训练框架，通过记忆驱动的攻击者与防御者共进化过程提升模型鲁棒性。实验表明，WARD在分布外基准上实现了接近完美的召回率，保持较低的误报率，并在分布偏移和针对性攻击下仍表现出高效稳定的防御性能。

Comments Code and models: https://github.com/caothientri2001vn/WARD-WebAgent

2605.15026 2026-05-15 cs.OS cs.AI cs.PF 版本更新

SemaTune: Semantic-Aware Online OS Tuning with Large Language Models

Georgios Liargkovas, Mihir Nitin Joshi, Hubertus Franke, Kostis Kaffes

发表机构 * Columbia University（哥伦比亚大学）； IBM Research（IBM研究院）

AI总结 SemaTune 是一种基于大语言模型的语义感知在线操作系统调优框架，旨在提升长期运行服务的性能。该方法通过整合系统参数、监控数据、配置历史等信息构建决策上下文，结合快速和慢速反馈回路进行调优，并在更新前进行类型验证，从而在保证模型开销和系统稳定性的同时，实现对操作系统控制语义的理解。实验表明，SemaTune 在多个基准测试中显著优于传统方法，提升了稳定阶段的性能表现，并有效避免了系统性能的严重下降。

Comments 17 pages, 12 figures

2605.15018 2026-05-15 cs.LG cs.AI 版本更新

Generalized Priority-Aware Shapley Value

Kiljae Lee, Ziqi Liu, Weijing Tang, Yuan Zhang

发表机构 * The Ohio State University（俄亥俄州立大学）； Carnegie Mellon University（卡内基梅隆大学）

AI总结本文提出了一种广义优先感知的夏普利值（GPASV），用于解决机器学习中的价值分配问题。传统方法要求优先级关系为二元且无环，但实际应用中常出现循环或多元比较的情况。GPASV 支持任意有向加权优先图，允许边权重对顺序冲突进行惩罚而非禁止，从而更灵活地建模真实数据中的优先关系。该方法通过公理化定义建立理论基础，并应用于大语言模型集成评估，展示了优先权分配对价值评估结果的重要影响。

2605.15016 2026-05-15 cs.CL cs.AI 版本更新

COTCAgent: Preventive Consultation via Probabilistic Chain-of-Thought Completion

Zihan Deng, Xiaozhen Zhong, Chuanzhi Xu

发表机构 * School of Computing and Data Science, The University of Hong Kong（香港大学计算与数据科学学院）； Shenzhen Institute for Advanced Study, University of Electronic Science and Technology of China（中国电子科学与技术大学深圳高级研究所）； School of Computer Science, The University of Sydney（悉尼大学计算机科学学院）

AI总结随着大型语言模型在医疗领域的应用，智能临床决策支持系统迅速发展。然而，现有模型在处理纵向电子健康记录（EHR）时存在统计推理不足和时间依赖性建模困难的问题。为此，本文提出COTCAgent，一种基于概率思维链补全的分层推理框架，通过解耦统计计算、特征匹配与语言生成，提升了对长期健康记录的分析能力，并在多个医疗数据集上取得了优于现有方法的性能。

2605.15015 2026-05-15 cs.AI cs.CL cs.HC 版本更新

Small, Private Language Models as Teammates for Educational Assessment Design

Chris Davis Jaldi, Anmol Saini, Shan Zhang, Noah Schroeder, Cogan Shimizu, Eleni Ilkou

发表机构 * Wright State University（怀特州立大学）； University of Florida（佛罗里达大学）； TIB – Leibniz Information Centre for Science and Technology（莱布尼茨信息科学与技术研究中心）

AI总结本研究探讨了小型私有语言模型（SLMs）在教育评估设计中的应用，旨在弥补大型语言模型（LLMs）在隐私和资源限制方面的不足。通过系统对比LLMs与SLMs在生成评估题目时的表现，研究采用可复现的教育学导向指标评估生成质量，并分析模型评分与专家评分的一致性与偏差。结果表明，SLMs在关键教育质量维度上表现优异，支持本地化部署，但模型评分仍存在系统性不一致和偏差，突显了人机协同在教育评估流程中的必要性。

2605.15012 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

Kai Yan, Alexander G. Schwing, Yu-Xiong Wang

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结本文提出了一种名为FEST的新型可验证奖励强化学习算法，旨在解决在复杂任务中样本效率低的问题。该方法通过随机选取少量示范数据进行指导，仅需128个示例即可取得优异效果，显著减少了对大量监督数据的依赖。研究发现，结合监督信号、策略梯度信号以及对少量示范数据的衰减权重是实现高性能的关键。实验表明，FEST在多个基准上优于传统方法，即使使用更少的监督数据也能达到相近甚至更好的性能。

Comments 25 pages, 11 figures

2605.15000 2026-05-15 cs.CL cs.AI 版本更新

Quantifying and Mitigating Premature Closure in Frontier LLMs

Rebecca Handler, Suhana Bedi, Nigam Shah

发表机构 * Department of Medicine, Stanford University（斯坦福大学医学系）； Department of Biomedical Data Science, Stanford University（斯坦福大学生物医学数据科学系）

AI总结该研究探讨了前沿大语言模型（LLMs）在面对不确定信息时过早得出结论的问题，即“过早闭合”现象，特别是在医疗任务中可能带来的风险。研究通过结构化和开放式的医学任务评估了五种前沿模型，发现它们在缺乏足够信息时仍频繁给出确定性回答，错误率较高。尽管安全导向的提示策略能部分缓解这一问题，但模型仍存在显著的过早闭合行为，表明当前医疗大语言模型在判断何时不应作答方面仍需改进。

Comments 14 pages, 3 figures, 1 table

2605.14995 2026-05-15 cs.AI cs.CL cs.LG cs.SI 版本更新

Explainable Detection of Depression Status Shifts from User Digital Traces

Loris Belcastro, Francesco Gervino, Fabrizio Marozzo, Domenico Talia, Paolo Trunfio

发表机构 * DIMES, University of Calabria（DIMES，卡塔尔大学）

AI总结本文提出了一种可解释的框架，用于从用户的数字痕迹（如社交媒体帖子、聊天记录等）中检测和分析抑郁状态的变化。该方法结合多个基于BERT的模型提取情感、情绪和抑郁严重程度等多维度信号，并通过时间聚合构建用户轨迹，识别有意义的状态变化点。同时引入大语言模型生成简洁的人类可读报告，提升结果的可解释性。实验表明，该方法在两个社交媒体数据集上表现出更高的历史覆盖度、时间连贯性和变化点敏感性，为心理健康状态的动态分析提供了有力支持。

2605.14991 2026-05-15 cs.CV cs.AI 版本更新

Predicting Response to Neoadjuvant Chemotherapy in Ovarian Cancer from CT Baseline Using Multi-Loss Deep Learning

Francesco Pastori, Francesca Fati, Marina Rosanu, Luigi De Vitis, Lucia Ribero, Gabriella Schivardi, Giovanni Damiano Aletti, Nicoletta Colombo, Jvan Casarin, Francesco Multinu, Elena De Momi

发表机构 * Department of Gynecologic Oncology, European Institute of Oncology, IEO, IRCCS, Milan, Italy（妇科肿瘤科，欧洲肿瘤研究所，IEO，IRCCS，米兰，意大利）； Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy（电子、信息与生物工程系，米兰理工学院，米兰，意大利）； Department of Obstetrics and Gynecology, Mayo Clinic, Rochester, USA（妇产科，梅奥诊所，罗切斯特，美国）； Department of Oncology and Hemato-Oncology, University of Milan, Milan, Italy（肿瘤学与血液肿瘤学系，米兰大学，米兰，意大利）； Department of Medicine and Innovative Technology, Università degli Studi dell'Insubria, Varese, Italy（医学与创新技术系，因斯布鲁克大学，瓦雷塞，意大利）

AI总结该研究旨在通过术前增强CT影像预测卵巢癌患者对新辅助化疗的反应，以帮助早期识别无效治疗的患者。研究提出了一种基于多损失深度学习的非侵入性框架，利用自动提取的3D病灶掩膜，结合部分微调的图像编码器和注意力机制进行特征聚合与分类。实验在包含280例患者的回顾性队列上验证，模型在测试集上实现了ROC-AUC为0.73、F1得分为0.70，表明其具备一定的临床预测能力，为影像驱动的患者分层提供了可靠基础。

2605.14984 2026-05-15 cs.CV cs.AI 版本更新

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

Ming Qian, Zimin Xia, Changkun Liu, Shuailei Ma, Wen Wang, Zeran Ke, Bin Tan, Hang Zhang, Gui-Song Xia

发表机构 * LIESMARS & School of Artificial Intelligence, Wuhan University（珞珈实验室与武汉大学人工智能学院）； EPFL（苏黎世联邦理工学院）； HKUST（香港科技大学）； Northeastern University（东北大学）； Zhejiang University（浙江大学）； Ant Group（蚂蚁集团）； Amap, Alibaba Group（高德地图，阿里巴巴集团）

AI总结本文研究如何从单张卫星图像生成街景级别的3D场景，这是一个具有挑战性的问题。现有方法在几何精度和语义多样性之间存在明显权衡，而本文提出的Sat3DGen通过引入一种以几何优先的方法，结合新的几何约束和视角训练策略，显著提升了生成场景的几何准确性和视觉真实感。实验表明，该方法在几何误差和图像质量方面均优于现有最佳方法，并在多个下游任务中展现了广泛的应用价值。

Comments ICLR 2026; code: https://github.com/qianmingduowan/Sat3DGen demo: https://huggingface.co/spaces/qian43/Sat3DGen project page: https://qianmingduowan.github.io/Sat3DGen_project_page/

2605.14983 2026-05-15 cs.GT cs.AI cs.CY cs.MA 版本更新

Agreement, Diversity, and Polarization Indices for Approval Elections

Piotr Faliszewski, Jitka Mertlová, Krzysztof Sornat, Stanisław Szufa, Tomasz Wąs

发表机构 * AGH University of Kraków（克拉科夫AGH大学）； Czech Technical University in Prague（布拉格捷克技术大学）； University of Geneva（日内瓦大学）； University of Oxford（牛津大学）

AI总结本文研究了如何通过指数量化批准选举中选民之间的一致性、多样性和极化程度。提出了一系列归一化的指数，用于衡量选举中这些特征，并分析了它们的性质。研究还利用这些指数绘制了新的批准选举图谱，并比较了来自多个真实数据集的选举之间的异同。

2605.14982 2026-05-15 cs.LG cs.AI 版本更新

Second-Order Actor-Critic Methods for Discounted MDPs via Policy Hessian Decomposition

Sanjeev Manivannan, Shuban V

发表机构 * Department of Biotechnology（生物技术系）； Indian Institute of Technology Madras（印度理工学院马德拉斯）

AI总结本文研究了折扣奖励设置下的强化学习问题，旨在提升策略梯度方法中策略更新的收敛效率。通过引入策略Hessian分解，作者提出了一种基于二阶优化的actor-critic方法，充分利用目标函数的曲率信息，在保证计算效率的同时提升了算法稳定性。该方法在双时间尺度框架下，将评论家视为准平稳，从而合理近似动作价值函数对策略参数的局部常数性，为二阶更新提供了理论支持。

Comments 9 pages, 2 figures including Appendix with Detailed proofs

2605.14980 2026-05-15 cs.CV cs.AI 版本更新

MicroscopyMatching: Towards a Ready-to-use Framework for Microscopy Image Analysis in Diverse Conditions

Xiaofei Hui, Haoxuan Qu, Hossein Rahmani, Shuohong Wang, Jeff W. Lichtman, Jun Liu

发表机构 * School of Computing and Communications（计算与通信学院）； Lancaster University（兰卡斯特大学）； Department of Cell Biology（细胞生物学系）； Harvard Medical School（哈佛医学院）； Department of Molecular and Cellular Biology（分子与细胞生物学系）； Harvard University（哈佛大学）

AI总结本文提出了一种名为MicroscopyMatching的通用显微图像分析框架，旨在解决不同实验条件下显微图像分析任务（如分割、追踪和计数）的自动化难题。该框架通过将多样化的分析任务统一为匹配问题，并利用预训练的潜在扩散模型的强大匹配能力，实现了在多种生物样本和成像条件下可靠且无需额外调整的分析效果。该研究为生物医学研究提供了一种实用且广泛适用的解决方案，显著降低了对人工分析的依赖。

2605.13338 2026-05-15 cs.CR cs.AI 版本更新

Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models

Shuqiang Wang, Wei Cao, Jiaqi Weng, Jialing Tao, Licheng Pan, Hui Xue, Zhixuan Chu

发表机构 * The State Key Laboratory of Blockchain and Data Security, Zhejiang University（区块链与数据安全国家重点实验室，浙江大学）； Alibaba Group（阿里巴巴集团）

AI总结本文研究了大型推理模型（LRMs）在面对不完整或逻辑不一致输入时容易“过度思考”的漏洞，该行为会导致推理过程冗长且耗能，可能被用于发起拒绝服务（DoS）攻击。作者提出了一种基于分层遗传算法的黑盒攻击框架，通过系统性地扰动输入问题的逻辑结构，诱导模型产生更长的推理过程。实验表明，该方法在多个先进推理模型上显著放大了输出长度，并具有良好的迁移性，凸显了“过度思考”作为现代推理系统共有的潜在安全风险。

Comments Accepted at ICML 2026. Code available at: https://github.com/EndlessCao/Overthink-HGA

Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML 2026), PMLR 306, 2026

2605.12484 2026-05-15 cs.LG cs.AI 版本更新

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

发表机构 * UC Berkeley（加州大学伯克利分校）； Mila（蒙特利尔大学人工智能研究所）； UT Austin（得克萨斯大学奥斯汀分校）； Eragon Periodic Labs ； Mirendil Video

AI总结大型语言模型（LLMs）通常通过更新参数（如强化学习）来适应下游任务，但这可能导致灾难性遗忘和泛化能力下降。相比之下，固定参数的上下文学习虽然能快速适应任务需求，但性能提升有限。本文提出了一种“快-慢”学习框架，将模型参数视为“慢权重”，优化的上下文作为“快权重”，从而在保持模型整体稳定性的基础上实现高效学习。实验表明，该方法在样本效率和性能上限上均优于传统方法，并在持续学习场景中表现出更强的适应能力和更少的遗忘。

Comments 29 pages, 14 figures, including appendix; Blog post: https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

2605.02004 2026-05-15 cs.AI 版本更新

Personalized Digital Health Modeling with Adaptive Support Users

Zhongqi Yang, Mahkameh Rasouli, Neda Mohseni, Yong Huang, Iman Azimi, Amir M. Rahmani

发表机构 * Department of Computer Science, University of California, Irvine（加州大学尔湾分校计算机科学系）； Thrive AI Health ； Sue & Bill Gross School of Nursing , University of California, Irvine（加州大学尔湾分校苏和比尔·格罗斯护理学院）

AI总结在数字健康领域，个体间生理和行为差异显著，因此个性化建模至关重要。然而，由于用户数据稀缺且噪声大，现有方法多依赖于群体预训练或相似用户数据，导致迁移偏差和泛化能力不足。本文提出一种统一的个性化框架，通过自适应加权相似和不相似用户数据进行建模，结合个人损失、相似性迁移和对比正则化，提升模型鲁棒性。实验表明，该方法在多个真实数据集上显著优于传统方法，尤其在数据量少时表现更优，并提升了数据利用效率和可解释性。

2604.25855 2026-05-15 cs.CV cs.AI 版本更新

SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring

Hector G. Rodriguez, Marcus Rohrbach

发表机构 * TU Darmstadt（图宾根大学）

AI总结本文提出了一种名为SIEVES的新型选择性预测方法，旨在提升视觉问答（VQA）系统在真实世界和分布外（OOD）场景中的可靠性和覆盖率。该方法通过让模型在回答问题时生成局部视觉证据，并设计一个选择器来基于这些证据显式评估回答质量，从而在不依赖模型内部信号（如logits或隐藏状态）的情况下实现更准确的置信度估计。实验表明，SIEVES在多个具有挑战性的OOD基准上显著提升了系统覆盖率，且适用于多种前沿闭源模型，无需访问其权重或logits。

2604.09860 2026-05-15 cs.RO cs.AI 版本更新

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Xuning Yang, Rishit Dagli, Alex Zook, Hugo Hadfield, Ankit Goyal, Stan Birchfield, Fabio Ramos, Jonathan Tremblay

发表机构 * NVIDIA ； University of Toronto（多伦多大学）； The University of Sydney（悉尼大学）

AI总结为了解决通用机器人领域仿真基准测试中性能快速饱和和缺乏真实泛化能力评估的问题，研究提出了RoboLab，一个高保真度的仿真基准框架。该框架通过生成与机器人和策略无关的场景和任务，支持对现实策略在仿真中的行为进行深入分析，并引入了包含120个任务的RoboLab-120基准，涵盖视觉、过程和关系三个能力维度。研究还系统评估了现有先进模型在性能和行为鲁棒性上的不足，为评估任务通用型机器人策略的真实泛化能力提供了细粒度指标和可扩展工具。

Journal ref Robotics: Science and Systems XXII, Sydney, Australia, 2026

2603.16039 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Residual Stream Duality in Modern Transformer Architectures

Yifan Zhang

AI总结本文探讨了现代Transformer架构中残差流的双重性质，指出残差路径不仅是优化工具，更是模型表示机制的重要组成部分。作者提出从序列位置和层深度两个维度理解Transformer的设计空间，并揭示了残差流在层深度方向上的自注意力机制与序列方向上的短窗口注意力具有对偶性。基于这一视角，文章进一步分析了不同模型设计的优劣，并推荐在关注快捷连接时使用深度增量学习（DDL），而在需要局部自适应混合时采用序列方向的短窗口注意力（ShortSWA）。

Comments Project Page: https://github.com/yifanzhang-pro/residual-stream-duality

2602.24273 2026-05-15 cs.AI 版本更新

A Minimal Agent for Automated Theorem Proving

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran-Ferreiro, Leopoldo Sarra

AI总结本文提出了一种用于自动定理证明的最小智能体基线，旨在为不同基于人工智能的定理证明架构提供系统性的比较基础。该设计实现了当前先进系统共有的核心功能，包括迭代证明优化、库搜索和上下文管理。实验表明，该方法在保持显著简化架构和低成本的同时，性能可与现有先进方法媲美，并在样本效率和成本效益方面展现出迭代方法相对于单次生成方法的优势。研究代码已开源，供未来研究参考及社区使用。

Comments Accepted for publication at ICML 2026

2602.14674 2026-05-15 cs.AI 版本更新

From User Preferences to Base Score Extraction Functions in Gradual Argumentation (with Appendix)

Aniol Civit, Antonio Rago, Antonio Andriella, Guillem Alenyà, Francesca Toni

发表机构 * King's College London（伦敦国王学院）； Imperial College London（伦敦帝国学院）

AI总结本文研究了如何从用户对论点的偏好中提取基础评分函数，以支持渐进式论证系统中的决策过程。作者提出了一种基础评分提取函数，能够将用户偏好映射到论点的基础评分，并将其应用于双极论证框架，从而构建定量双极论证框架，便于使用现有的计算工具进行分析。该方法考虑了人类偏好中的非线性特性，并通过理论分析和机器人实验验证了其有效性，为实际应用中的渐进语义选择提供了指导。

Comments Accepted to AAMAS 2026 - With Appendix

2602.11626 2026-05-15 cs.LG cs.AI physics.chem-ph physics.comp-ph physics.flu-dyn 版本更新

ArGEnT: Arbitrary Geometry-encoded Transformer for Operator Learning

Wenqian Chen, Yucheng Fu, Michael Penwarden, Pratanu Roy, Panos Stinis

发表机构 * Pacific Northwest National Laboratory（太平洋西北国家实验室）； Sandia National Laboratories（桑地亚国家实验室）； Lawrence Livermore National Laboratory（劳伦斯利弗莫尔国家实验室）

AI总结在科学机器学习中，如何学习具有复杂、变化几何结构和参数化物理条件的系统解算符是一个核心挑战。本文提出了一种名为 ArGEnT 的任意几何编码变换器，它基于注意力机制，能够直接从点云表示中编码几何信息，并通过自注意力、交叉注意力和混合注意力三种变体灵活地整合几何特征。将 ArGEnT 集成到 DeepONet 中作为主干网络，构建了一个无需显式参数化几何输入的代理建模框架，在流体力学、固体力学和电化学系统等多个基准问题上的实验表明，该方法在预测精度和泛化能力方面显著优于传统 DeepONet 和其他几何感知代理模型。

Comments 69 pages, 21 figures, 10 tables

2602.02711 2026-05-15 cs.AI 版本更新

Dynamic Mixed-Precision Routing for Efficient Multi-step LLM Interaction

Yuanzhe Li, Jianing Deng, Jingtong Hu, Tianlong Chen, Song Wang, Huanrui Yang

发表机构 * University of Arizona（亚利桑那大学）； University of Pittsburgh（匹兹堡大学）； University of North Carolina at Chapel Hill（北卡罗来纳大学教堂山分校）； University of Central Florida（佛罗里达中央大学）

AI总结该研究针对大语言模型（LLM）在长周期决策任务中推理成本过高的问题，提出了一种动态混合精度路由（DMR）框架，通过在每一步决策中自适应选择高精度或低精度模型，以在保证任务成功率的同时降低计算成本。该方法基于不同步骤对精度敏感性的观察，采用两阶段训练策略，结合KL散度监督学习和组相对策略优化，有效提升了性能与效率的平衡。实验表明，DMR在ALFWorld和WebShop等任务中取得了优于单一精度基线的准确率与成本综合表现。

2512.06471 2026-05-15 cs.LG cs.AI 版本更新

Why Goal-Conditioned Reinforcement Learning Works: Relation to Dual Control

Nathan P. Lawrence, Ali Mesbah

发表机构 * Department of Chemical and Biomolecular Engineering, University of California, Berkeley, CA 94720 USA（化学与生物分子工程系，加州大学伯克利分校，CA 94720 USA）

AI总结本文分析了目标条件强化学习（Goal-Conditioned RL）的成功原因，并将其与最优控制理论联系起来。研究揭示了经典二次目标与目标条件奖励之间的最优性差距，解释了为何目标条件奖励在某些情况下优于密集奖励。此外，文章将目标条件奖励与部分可观测马尔可夫决策过程中的状态估计相结合，表明其在双控制问题中的适用性，并通过强化学习和预测控制方法在非线性与不确定环境中验证了目标条件策略的优势。

Comments IFAC world congress postprint

2510.05213 2026-05-15 cs.RO cs.AI cs.LG 版本更新

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka

发表机构 * UC Berkeley（加州大学伯克利分校）； Carnegie Mellon University（卡内基梅隆大学）； University of Hong Kong（香港大学）； Peking University（北京大学）； Stony Brook University（石溪大学）； UNC-Chapel Hill（北卡罗来纳大学教堂山分校）

AI总结 VER 是一种用于机器人学习的视觉专家 Transformer 模型，旨在解决预训练视觉基础模型在特定领域表现优异但跨任务泛化能力有限的问题。该方法通过知识蒸馏将多个视觉基础模型整合为一个专家库，并利用轻量级的动态路由网络从预训练库中选择与任务相关的专家，从而实现高效且灵活的特征提取。VER 还引入了基于块的专家路由和课程化 Top-K 退火策略，提升了动态选择的精度与适应性，在多个机器人任务中取得了最先进的性能。

2508.11845 2026-05-15 cs.SD cs.AI cs.IR cs.LG 版本更新

AVEX: What Matters for Animal Vocalization Encoding

Marius Miron, David Robinson, Milad Alizadeh, Ellen Gilsenan-McMahon, Gagan Narula, Emmanuel Chemla, Maddie Cusimano, Felix Effenberger, Masato Hagiwara, Benjamin Hoffman, Sara Keen, Diane Kim, Jane Lawton, Jen-Yu Liu, Aza Raskin, Olivier Pietquin, Matthieu Geist

发表机构 * Earth Species Project（地球物种项目）

AI总结本文研究了动物声学编码中影响模型性能的关键因素，旨在开发一个适用于多种下游任务的通用生物声学编码器。通过大规模实验，作者分析了训练数据多样性、模型架构和训练策略对编码器性能的影响，并提出了结合自监督预训练与监督微调的混合训练方法，显著提升了模型在不同任务和数据集上的表现。研究还发现，数据多样性在训练和评估阶段都至关重要，并公开了模型参数以支持后续研究与应用。

Comments In The Fourteenth International Conference on Learning Representations 2026

2507.15774 2026-05-15 cs.LG cs.AI 版本更新

Time Series Forecasting Through the Lens of Dynamics

Alexis-Raja Brachet, Pierre-Yves Richard, Céline Hudelot

发表机构 * CentraleSupélec, IETR UMR CNRS 6164, France（法国中央超导学院，IETR CNRS 6164研究组）

AI总结本文研究了时间序列预测任务中深度学习模型与浅层线性模型的性能差异，提出模型应学习从过去到未来数据点的直接联系，即“动态学习”能力。作者引入了 $\texttt{PRO-DYN}$ 框架，分析现有模型的动态特性，发现性能较差的模型往往仅部分学习动态关系，且动态模块的位置对模型效果至关重要。基于系统性与实证研究，作者提出了一种简单易用的模型设计与改进方法。

Comments Accepted at ICML 2026

2605.14966 2026-05-15 cs.CV cs.AI 版本更新

MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs

Wei Ding, Yilin Li, Yudong Zhang, Ruobing Xie, Xingwu Sun, Jiansheng Chen, Yu Wang

发表机构 * Tsinghua University（清华大学）； Tsinghua University, Tencent（清华大学腾讯）； Tencent（腾讯）； University of Science and Technology Beijing（北京科技大学）； University of Macau（澳门大学）

AI总结本文提出了一种名为MHSA的轻量级框架，旨在通过引导注意力机制来缓解大视觉语言模型（LVLMs）中的幻觉问题。MHSA通过学习修正跨模态注意力模式，利用来自LVLM自身和DHCP判别器的监督信号训练一个简单的三层MLP生成器，从而生成修正后的注意力权重。该方法在推理时无需修改LVLM参数，仅替换原始跨模态注意力即可有效减少生成和判别层面的幻觉，为LVLM的幻觉研究提供了新的视角。

Comments 19 pages, 17 figures

2605.14940 2026-05-15 cs.LG cs.AI eess.SP 版本更新

Not All Symbols Are Equal: Importance-Aware Constellation Design for Semantic Communication

Albert Shaju, Christo Kurisummoottil Thomas, Mayukh Roy Chowdhury

发表机构 * Department of Electrical and Computer Engineering, Worcester Polytechnic Institute（沃斯特理工学院电气与计算机工程系）； Nokia Bell Labs（诺基亚贝尔实验室）

AI总结本文研究了面向语义通信的符号星座设计问题，提出了一种关注语义重要性的联合语义-物理层框架，通过提取离散语义概念、评估语义关键性，并结合深度强化学习动态选择传输符号，从而在物理层实现语义感知的星座映射。该方法引入了语义符号脆弱性指标和语义保护概率，证明了传统格雷编码星座在非均匀语义重要性场景下存在性能局限，并在多个数据集上验证了其在高谱效率下的优越性。

Comments Submitted to IEEE GLOBECOM 2026. 6 pages, 8 figures

2605.14937 2026-05-15 cs.LG cs.AI cs.RO 版本更新

Slot-MPC: Goal-Conditioned Model Predictive Control with Object-Centric Representations

Jonathan Spieler, Angel Villar-Corrales, Sven Behnke

发表机构 * Autonomous Intelligent Systems（自主智能系统）； Computer Science Institute VI（计算机科学研究所VI）； Intelligent Systems and Robotics（智能系统与机器人）； Center for Robotics（机器人中心）； Lamarr Institute for Machine Learning and Artificial Intelligence（拉马尔人工智能学习与智能研究所）； University of Bonn, Germany（波恩大学，德国）

AI总结 Slot-MPC 是一种基于对象中心表示的目标条件模型预测控制框架，旨在提升智能体在复杂环境中的规划能力。该方法通过视觉编码器学习场景中各个对象的结构化表示，并基于这些表示构建动作条件的动力学模型，从而在推理阶段利用模型预测控制实现高效的动作规划。实验表明，与非对象中心的世界模型相比，Slot-MPC 在任务表现和规划效率方面均有显著提升，尤其在有限状态-动作覆盖的离线设置中，基于梯度的MPC方法表现出更优性能。

2605.14912 2026-05-15 cs.AI cs.CY cs.HC cs.LG 版本更新

From Sycophantic Consensus to Pluralistic Repair: Why AI Alignment Must Surface Disagreement

Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka

发表机构 * Department of Computer Science, University of Oxford（牛津大学计算机科学系）； Institute for Ethics in AI, University of Oxford（牛津大学人工智能伦理研究所）； Responsible Technology Institute, University of Oxford（牛津大学负责任技术研究所）

AI总结本文探讨了人工智能对齐中的“多元主义对齐”问题，指出当前基于强化学习的AI系统在面对不同价值观时倾向于迎合用户意见，导致缺乏真实的价值冲突与分歧。为此，作者提出以格赖斯语用原则为基础的三种对话机制——界定、信号和修正，强调AI应能承认自身视角限制、揭示价值冲突并基于原则进行修正，而非简单迎合。研究引入“多元修正得分”（PRS）作为衡量指标，并在实验中验证了现有模型在面对争议性问题时虽能遵循用户意见，但修正能力较弱，突显了部署阶段治理机制对实现多元主义的重要性。

2605.14907 2026-05-15 cs.AI 版本更新

KGPFN: Unlocking the Potential of Knowledge Graph Foundation Model via In-Context Learning

Yisen Gao, Jiaxin Bai, Haoyu Huang, Zhongwei Xie, Yufei Li, Hong Ting Tsang, Sirui Han, Yangqiu Song

发表机构 * Department of Computer Science and Engineering, HKUST, Hong Kong, China（香港科技大学计算机科学与工程系）； Department of Computer Science and Engineering, HKBU, Hong Kong, China（香港城市大学计算机科学与工程系）

AI总结知识图谱基础模型旨在通过学习可迁移的关系结构，实现对包含新实体和关系的图的泛化。然而，现有方法大多关注关系层面的通用性，而对上下文学习这一基础模型的重要支柱在知识图谱推理中的应用研究较少。本文提出KGPFN，一种结合先验数据适配网络的知识图谱基础模型，通过结构化上下文中的局部和全局信息进行推理，实现了跨图的强适应能力，并在多个基准测试中表现出色。

2605.14900 2026-05-15 cs.AI 版本更新

COREKG: Coreset-Guided Personalized Summarization of Knowledge Graphs

Sohel Aman Khan, Raghava Mutharaju, Supratim Shit

发表机构 * Mehta Family School of Data Science and AI, IIT Palakkad, India（梅塔家族数据科学与人工智能学院，印度IIT帕拉卡德）； Department of CSE, IIIT-Delhi, India（计算机科学与工程系，印度IIIT-德里）

AI总结本文提出了一种基于核心集理论的个性化知识图谱摘要方法 COREKG，旨在解决大规模知识图谱在问答和可视化等任务中应用不便的问题。该方法通过基于用户查询模式的敏感度评分，从知识图谱中采样出一个具有代表性的三元组子集，以保证摘要在结构和语义上的准确性。实验表明，COREKG 在多个真实数据集上相比现有方法在查询准确率和结构覆盖率方面表现更优，同时显著减少了存储和查询开销。

Comments Accepted at IJCAI 2026

2605.14897 2026-05-15 cs.LG cs.AI 版本更新

Critic-Driven Voronoi-Quantization for Distilling Deep RL Policies to Explainable Models

Senne Deproost, Denis Steckelmacher, Ann Nowé

发表机构 * Vrije Universiteit Brussel（布鲁塞尔自由大学）

AI总结本文研究如何将深度强化学习策略蒸馏到可解释模型中，以平衡性能与可解释性之间的矛盾。提出了一种基于评论家网络的Voronoi量化方法，通过划分状态空间并为每个区域拟合线性函数，实现对复杂策略的简化表示。该方法利用原策略的评论家网络迭代优化子策略，有效提升了蒸馏模型的性能与可解释性。

Comments Accepted for presentation at EXTRAAMAS 2026

2605.14893 2026-05-15 cs.CV cs.AI cs.LG 版本更新

Your CLIP has 164 dimensions of noise: Exploring the embeddings covariance eigenspectrum of contrastively pretrained vision-language transformers

Jakub Grzywaczewski, Dawid Płudowski, Przemysław Biecek

发表机构 * Warsaw University of Technology（华沙技术大学）； Centre for Credible Artificial Intelligence（可信人工智能中心）； University of Warsaw（华沙大学）

AI总结本文研究了对比预训练视觉-语言模型（VLMs）中潜在空间的结构问题，发现其共享的潜在空间中存在大量非语义的多模态噪声。作者通过协方差矩阵的谱分解方法，将潜在空间分解为语义信号和共享噪声子空间，并观察到噪声结构在不同数据子集上具有强子群不变性。实验表明，去除这些噪声维度对下游任务性能影响较小，甚至有助于提升性能，揭示了现代VLMs潜在空间中存在大量由模型架构引起的噪声，而非仅由任务相关语义主导。

2605.14886 2026-05-15 cs.AI 版本更新

BiFedKD: Bidirectional Federated Knowledge Distillation Framework for Non-IID and Long-Tailed ECG Monitoring

Zixuan Shu, Tiancheng Cao, Hen-Wei Huang

发表机构 * School of Electrical and Electronic Engineering, Nanyang Technological University, Republic of Singapore（南洋理工大学电子与电气工程学院）； Lee Kong Chian School of Medicine, Nanyang Technological University, Republic of Singapore（南洋理工大学李科钦医学院）

AI总结在物联网医疗（IoMT）网络中，心电图（ECG）监测受到数据共享法规和隐私保护的限制。为解决联邦学习中模型更新通信开销大、在非独立同分布和长尾标签场景下性能下降的问题，本文提出了一种双向联邦知识蒸馏框架BiFedKD，通过温度缩放和聚合蒸馏机制提升模型对齐效果。实验表明，BiFedKD在MIT-BIH心律失常数据集上显著提升了准确率和Macro-F1指标，同时大幅降低了通信和计算开销。

2605.14867 2026-05-15 cs.LG cs.AI q-bio.NC 版本更新

REALM: Retrospective Encoder Alignment for LFP Modeling

Peicheng Wu, Zhenyu Bu, Runze Ma, Lin Du

发表机构 * Department of Biomedical Engineering, The Ohio State University（生物医学工程系，俄亥俄州立大学）； Department of Information Technology, Monash University Malaysia（信息技术系，墨尔本大学马来西亚分校）； NeuroTech Insititude, Columbus, OH, United States（神经科技研究所，美国哥伦布）

AI总结该研究提出了一种名为REALM的因果LFP解码框架，旨在解决基于局部场电位（LFP）的行为解码中精度低和非因果架构不适用于实时应用的问题。REALM通过从预训练的双向LFP模型中迁移表征知识到因果学生模型，实现了高效的实时解码。实验表明，REALM在保持高解码性能的同时，显著减少了模型参数和训练时间，展示了LFP-only模型在无线植入式脑机接口中的实用性和可扩展性。

详情

英文摘要

Spike activity has been the dominant neural signal for behavior decoding due to its high spatial and temporal resolution. However, as brain-computer interfaces (BCIs) move toward high channel counts and wireless operation, the high sampling frequency of spike signals becomes a bottleneck due to high power and bandwidth requirements. Local field potentials (LFPs) represent a different spatial-temporal scale of brain activity compared to spikes, offering key advantages including improved long-term stability, reduced energy consumption, and lower bandwidth requirement. Despite these benefits, LFP-based decoding models typically show reduced accuracy and often rely on non-causal architectures that are unsuitable for real-time deployment. To address these challenges, we propose REALM: a retrospective distillation framework that enables causal LFP decoding. Inspired by offline-to-online distillation strategies in speech recognition, REALM transfers representational knowledge from a pretrained multi-session bidirectional LFP model to a causal version for real-time deployment. We first pretrain a bidirectional Mamba-2 teacher model using a masked autoencoding objective. We then distill this teacher model into a compact student model via a combined objective of representation alignment and task supervision. REALM consistently outperforms both causal and non-causal LFP-based SOTA methods for behavior decoding. Notably, our REALM improves decoding performance while achieving a $2\times$ reduction in parameter count and a $10\times$ reduction in training time. These results demonstrate that retrospective distillation effectively bridges the gap between offline and real-time neural decoding. REALM shows that LFP-only models can achieve competitive decoding performance without reliance on spike signals, offering a practical and scalable alternative for next-generation wireless implantable BCIs.

URL PDF HTML ☆

赞 0 踩 0

2605.14866 2026-05-15 cs.SE cs.AI 版本更新

Towards In-Depth Root Cause Localization for Microservices with Multi-Agent Recursion-of-Thought

Lingzhe Zhang, Tong Jia, Kangjin Wang, Chiming Duan, Minghua He, Rongqian Wang, Xi Peng, Meiling Wang, Gong Zhang, Renhai Chen, Ying Li

发表机构 * Peking University（北京大学）； Huawei Theory Lab（华为理论实验室）

AI总结随着微服务系统因动态交互和运行环境变化而日益复杂，故障频率不断上升，准确的根因定位（RCL）对系统可靠性至关重要。现有基于传统机器学习和深度学习的方法在可解释性和跨部署迁移能力方面存在不足，而基于大语言模型（LLM）的方法虽有所改进，但仍面临上下文爆炸和串行推理结构导致的诊断效率与准确性问题。本文提出RCLAgent，一个基于多智能体递归思维的微服务根因定位框架，通过并行推理分解诊断过程，显著提升了定位精度和推理效率。

2605.14865 2026-05-15 cs.AI cs.CL 版本更新

Holistic Evaluation and Failure Diagnosis of AI Agents

Netta Madvil, Gilad Dym, Alon Mecilati, Edo Dekel, Jonatan Liberman, Rotem Brazilay, Liron Schliesser, Max Svidlo, Shai Nir, Orel Shalom, Yaron Friedman, David Connack, Amos Rimon, Philip Tannor, Shir Chorev

发表机构 * Deepchecks

AI总结该研究提出了一种用于AI智能体的全面评估与故障诊断框架，旨在解决现有评估方法在解释失败原因和定位问题位置方面的不足。该框架结合自顶向下的智能体级诊断与自底向上的片段级评估，将分析过程分解为独立的片段评估，从而支持任意长度的轨迹分析，并为每个判断提供片段级的解释依据。实验表明，该方法在多个基准测试中取得领先结果，显著提升了分类、定位及联合定位-分类的准确率。

2605.14857 2026-05-15 cs.AI cs.IR 版本更新

A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions

Yu Zhang, Dongjiang Zhuang, Qu Zhou, Zheng Huang, Junhe Wu, Jing Cao, Kai Chen

发表机构 * School of Information and Electronic Engineering, Shanghai Jiao Tong University, Shanghai, China（信息与电子工程学院，上海交通大学，上海，中国）； Nanjing Jiyun Information Technology Co., Ltd., Nanjing, China（南京吉云信息技术有限公司，南京，中国）； School of Computer Science, Shanghai Jiao Tong University, Shanghai, China（计算机科学学院，上海交通大学，上海，中国）

AI总结本文提出了一种确定性智能体工作流，用于解决高阶协调制度（HS）税则分类这一专家级任务。该方法通过多维规则推理，结合可解释的决策过程，解决了在材料、形式、功能等多个维度上同时满足优先规则的挑战。研究设计了一个固定流程的智能体架构，将大语言模型调用限制在特定阶段，并保留本地的反思与验证机制，从而实现结构化、可解释的分类决策。实验表明，该方法在HSCodeComp数据集上取得了较高的分类准确率，并揭示了部分标注可能存在与HS规则不符的情况。

2605.14855 2026-05-15 cs.LG cs.AI eess.SP 版本更新

Exploitation of Hidden Context in Dynamic Movement Forecasting: A Neural Network Journey from Recurrent to Graph Neural Networks and General Purpose Transformers

Lukas Schelenz, Shobha Rajanna, Denis Gosalci, Lucas Heublein, Jonas Pirkl, Jonathan Ott, Felix Ott, Christopher Mutschler, Tobias Feigl

发表机构 * Fraunhofer Institute for Integrated Circuits IIS（弗劳恩霍夫集成电路研究所）

AI总结本文研究了在动态运动预测任务中如何有效利用隐藏上下文信息，重点探讨了从循环神经网络到图神经网络以及通用型Transformer模型的演进过程。研究对比了多种机器学习方法在预测NBA球员动态运动轨迹中的性能，发现基于LSTM的混合模型在结合上下文信息后取得了最低的最终位移误差，表现优于图注意力网络和Transformer等其他模型。实验表明，不同模型在预测精度、泛化能力和训练效率方面各有优劣，强调了在快速动态环境中进行轨迹预测时需根据具体任务选择合适模型。

Comments 12 pages

Journal ref IEEE/ION Position, Location and Navigation Symposium (PLANS), Salt Lake City, UT, May 2025

详情

DOI: 10.1109/PLANS61210.2025.11028353

英文摘要

Forecasting within signal processing pipelines is crucial for mitigating delays, particularly in predicting the dynamic movements of objects such as NBA players. This task poses significant challenges due to the inherently interactive and unpredictable nature of sports, where abrupt changes in velocity and direction are prevalent. Traditional approaches, including (S)ARIMA(X), Kalman filters (KF), and Particle filters (PF), often struggle to model the non-linear dynamics present in such scenarios. Machine learning (ML) methods, such as long short-term memory (LSTM) networks, graph neural networks (GNNs), and Transformers, offer greater flexibility and accuracy but frequently fail to explicitly capture the interplay between temporal dependencies and contextual interactions, which are critical in chaotic sports environments. In this paper, we evaluate these models and assess their strengths and weaknesses. Experimental results reveal key performance trade-offs across input history length, generalizability, and the ability to incorporate contextual information. ML-based methods demonstrated substantial improvements over linear models across forecast horizons of up to 2s. Among the tested architectures, our hybrid LSTM augmented with contextual information achieved the lowest final displacement error (FDE) of 1.51m, outperforming temporal convolutional neural network (TCNN), graph attention network (GAT), and Transformers, while also requiring less data and training time compared to GAT and Transformers. Our findings indicate that no single architecture excels across all metrics, emphasizing the need for task-specific considerations in trajectory prediction for fast-paced, dynamic environments such as NBA gameplay.

URL PDF HTML ☆

赞 0 踩 0

2605.14851 2026-05-15 cs.MA cs.AI 版本更新

IFPV: An Integrated Multi-Agent Framework for Generative Operational Planning and High-Fidelity Plan Verification

Zhigao Huang, Zhengqing Hu, Dong Chen, Shaohan Zhang, Zhao Jin, Bo Zhang, Han Wu, Mingliang Xu

发表机构 * School of Computer and Artificial Intelligence, Zhengzhou University（郑州大学计算机与人工智能学院）； Engineering Research Center of Intelligent Swarm Systems, Ministry of Education（教育部智能群体系统工程研究中心）； National Supercomputing Center in Zhengzhou（郑州国家超算中心）； Henan Research Center for Large Model Technology（河南省大模型技术与新质软件工程研究中心）

AI总结本文提出了一种集成多智能体框架IFPV，用于生成作战计划并进行高保真度的计划验证。该框架包含两个紧密耦合的模块：多视角分层智能体MPHA用于生成作战行动序列，以及对抗认知仿真引擎ACSE用于高保真度的对抗验证。实验表明，IFPV在任务成功率和操作成本方面优于传统方法，验证模块也显著提升了对候选计划潜在漏洞的识别能力。

Comments Submitted to Neurocomputing

2605.14844 2026-05-15 cs.LG cs.AI 版本更新

XFP: Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation for LLM Inference

Thomas Witt

发表机构 * Gemini Stiftung（吉姆米基金会）

AI总结本文提出了一种名为XFP的动态权重量化方法，用于大语言模型的高效推理。该方法通过设定每通道的余弦相似度质量下限，自动确定每层的码本大小、异常值预算和打包方式，无需手动选择位宽或校准数据。XFP将权重矩阵分解为稀疏的fp16异常值残差和密集的子字节索引张量，并通过两种存储模式实现高效解码。实验表明，XFP在多个大模型上实现了比现有方法更高的推理速度和准确率，同时有效解决了模型超出内存限制的问题。

Comments 17 pages, 3 figures, 17 tables, 1 algorithm. Code: https://github.com/flash7777/vllm/tree/multiquant

2605.14841 2026-05-15 cs.LG cs.AI 版本更新

GPart: End-to-End Isometric Fine-Tuning via Global Parameter Partitioning

Paolo Mandica, Michał Brzozowski, Zuzanna Dubanowska, Neo Christopher Chung

发表机构 * Samsung AI Center（三星人工智能中心）； University of Warsaw（华沙大学）

AI总结本文提出了一种名为 GPart 的全新参数高效微调方法，通过全局参数划分实现端到端等距微调，解决了传统低秩适配（LoRA）方法在参数映射过程中破坏距离保持性质的问题。GPart 采用单一等距划分矩阵，将低维可训练向量直接映射到模型的完整权重空间，从而完全消除低秩瓶颈，显著提升了参数效率。实验表明，GPart 在自然语言理解、计算机视觉和数学推理等任务上均表现出色，达到了当前参数高效微调方法的最先进水平。

2605.14833 2026-05-15 cs.AI cs.HC 版本更新

Emotion-Attended Stateful Memory (EASM):The Architecture for Hyper-Personalization at Scale

Vineet Kotecha, Vansh Gupta

发表机构 * divAIne Research（divAIne研究）

AI总结当前语言模型系统在会话间本质上是无状态的，限制了其随时间个性化交互的能力。本文提出了一种基于情绪关注的有状态记忆架构（EASM），能够在推理时动态构建用户的个性化对话上下文，结合长期历史、情绪信号和意图推断。实验表明，该架构在多个情感类别对话中显著提升了记忆关联性、计划清晰度和情感验证效果，尤其在处理悲伤、焦虑等复杂情感场景时表现稳定，为构建高度个性化的AI系统提供了新的基础架构思路。

Comments 18 pages, 3 figures, 3 tables. Industry research whitepaper. Includes controlled A/B evaluation across 30 scenarios and 6 emotional categories

2605.14831 2026-05-15 cs.AI cs.LG 版本更新

Interestingness as an Inductive Heuristic for Future Compression Progress

Vincent Herrmann, Jürgen Schmidhuber

发表机构 * IDSIA/USI/SUPSI Lugano, Switzerland（瑞士人工智能实验室IDSIA/USI/SUPSI卢加诺分校，瑞士）； King Abdullah University of Science and Technology（卡布斯国王科学与技术大学）

AI总结本文研究了“有趣性”作为未来压缩进展的归纳启发式方法，旨在解决递归自我改进系统中识别潜在进步任务或数据的瓶颈问题。通过引入算法统计和 Kolmogorov 复杂度工具，作者证明了有趣性具有理论可行性和实证支持，并发现未来进展的期望值与最近突破的时效性呈指数关系。研究还表明，与长度先验相比，算法先验对预期发现的估计更为乐观，且在三种不同的计算范式中得到了实验验证。

2605.14802 2026-05-15 cs.AI 版本更新

A Heterogeneous Temporal Memory Governance Framework for Long-Term LLM Persona Consistency

Zhao Yang, Wang Huan, Li Yingshuo, Tu Haomiao, Lin Hujite

发表机构 * Changchun Kelaile Technology Co., Ltd（长春凯莱尔科技有限公司）

AI总结该研究针对大语言模型在长期交互中面临的事实遗忘、时间线混乱、角色漂移和稳定性下降等问题，提出了一种异构时间记忆治理框架ARPM。该框架将静态知识记忆与动态对话经验记忆分离，并结合向量检索、BM25、RRF融合、双时间重排序等多种技术，实现对连续性和角色一致性的可追溯治理。实验表明，ARPM在高噪声环境下仍能保持语义连续性与角色一致性，并揭示了长期角色一致性可以被分解为可治理的组件并进行白盒评估。

Comments 23 pages, 5 figures, 2 tables. Preprint version. Code for ARPM v4.0 is available at: https://github.com/Spirtxiaoqi7/ARPM

详情

英文摘要

Large language models often suffer from fact loss, timeline confusion, persona drift, and reduced stability during long-range interaction, especially under high-noise knowledge bases, context clearing, and cross-model transfer. To address these issues, we introduce ARPM, an external temporal memory governance framework for long-term dialogue. ARPM separates static knowledge memory from dynamic dialogue experience memory and combines vector retrieval, BM25, RRF fusion, dual-temporal reranking, chronological evidence reading, and a controlled analysis protocol for evidence verification and answer binding. Unlike approaches that encode persona consistency into model weights or rely only on long context, ARPM treats continuity as a traceable, auditable, and transferable governance problem. Using engineering logs, we conduct three experiments. First, in a 50-round question-answering setting, we compare signal-to-noise ratios of 1:5 and 1:200+, and distinguish CSV auto-judgment from manual review. Under 1:5, CSV recall accuracy is 54.0%, while manual review raises it to 100.0%. Under 1:200+, the values are 44.0% and 80.0%. These results show that automatic rules can underestimate recall after supporting evidence enters the prompt. Second, ablation results show that dialogue history retrieval is necessary for recent continuity: disabling it reduces strict accuracy from 100% to 66.7%, and disabling BM25 reduces it to 80.0%, indicating that pure semantic retrieval is insufficient for correction and tracing. Third, under a 5.1-million-character noise substrate, periodic context clearing, and multi-model handoff, ARPM maintains semantic continuity, boundary continuity, and persona consistency, while exposing limits caused by weak protocol compliance. These findings show that long-term persona consistency can be decomposed into governable components and evaluated in a white-box manner.

URL PDF HTML ☆

赞 0 踩 0

2605.14790 2026-05-15 cs.CL cs.AI 版本更新

Graphs of Research: Citation Evolution Graphs as Supervision for Research Idea Generation

Songyang Gao, Yinghui Xia, Siyi Liu, Hui Xiong

发表机构 * The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））； Tsinghua University（清华大学）

AI总结本文提出了一种名为“Graphs of Research（GoR）”的监督微调方法，用于提升基于大语言模型（LLM）的科研想法生成能力。该方法通过构建每篇种子论文的两跳引用邻域，利用引用位置、频率、前驱链接和发表时间等信息生成论文演化的有向无环图（DAG），并以此作为监督信号对模型进行训练。实验表明，GoR 在与基于 GPT-4o 的基线模型的对比中取得了最优性能，验证了引用演化图作为监督信号在科研想法生成任务中的有效性。

2605.14786 2026-05-15 cs.CR cs.AI cs.HC cs.LG 版本更新

Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

William Lugoloobi, Samuelle Marro, Jabez Magomere, Joss Wright, Chris Russell

发表机构 * Oxford Internet Institute, University of Oxford（牛津互联网研究所，牛津大学）； Department of Engineering Science, University of Oxford（工程科学系，牛津大学）

AI总结随着基于大语言模型（LLM）的智能体越来越多地代表用户浏览网页，一个自然的问题是：网站能否被动识别出驱动该智能体的底层模型？本研究发现，通过被动的JavaScript追踪器捕获智能体的动作和交互时间，可以以高达96%的F1分数识别出使用的模型。研究还表明，基于智能体行为训练的分类器能够跨不同规模和家族的模型泛化，并且仅需少量交互轨迹即可训练出高效的分类器。尽管引入随机时间延迟可以降低分类器性能，但重新训练后仍能恢复识别效果。

2605.14774 2026-05-15 cs.AI 版本更新

Identifying Culprits Through Deep Deterministic Policy Gradient Deep Learning Investigation

Lata B T, Savitha N J

发表机构 * Dept. of CSE, UVCE, Bengaluru, India（计算机科学与工程系，UVCE，班加罗尔，印度）

AI总结本文研究如何利用深度强化学习方法提高犯罪调查中犯罪嫌疑人的识别准确率。作者提出采用深度确定性策略梯度（DDPG）算法，通过训练犯罪现场资料、证人证词和嫌疑人档案等数据集，有效提升识别效率并减少误判。实验结果表明，该方法在识别准确率上达到95%，优于现有多种方法，为人工智能在司法领域的应用提供了新思路。

Journal ref Mathematical Statistician and Engineering Applications, https://www.philstat.org/index.php/MSEA/article/view/2953, ISSN: 2094-0343

2605.14773 2026-05-15 cs.LG cs.AI 版本更新

Beyond What to Select: A Plug-and-play Oscillatory Data-Volume Scheduling for Efficient Model Training

Suorong Yang, Hanqi Zhu, Hai Gan, Fangjian Su, Guang Li, Furao Shen, Soujanya Poria

发表机构 * National University of Singapore（国立新加坡大学）； Nanjing University（南京大学）； Hokkaido University（北海道大学）； Nanyang Technological University（南洋理工大学）

AI总结本文研究了数据选择在模型训练中的高效应用，指出现有方法虽关注选择哪些样本，但通常固定数据量比例，导致动态选择与静态数据量之间的不匹配。作者从优化角度出发，提出了一种名为PODS的插件式振荡数据量调度框架，通过动态调整数据选择比例，在增强正则化效果的同时保持优化稳定性。实验表明，PODS在多种数据集和任务中均有效提升了训练效率与模型性能的平衡。

2605.14771 2026-05-15 cs.AI 版本更新

MediaClaw: Multimodal Intelligent-Agent Platform Technical Report

Shaoan Zhao, Huanlin Gao, Qiang Hui, Ting Lu, Xueqiang Guo, Yantao Li, Xinpei Su, Fuyuan Shi, Chao Tan, Fang Zhao, Kai Wang, Shiguo Lian

发表机构 * China Unicom AI (Yuanjing) Team（中国unicom AI (元京)团队）

AI总结 MediaClaw 是一个基于 OpenClaw 生态构建的多模态智能体平台，旨在解决AIGC应用中的实际部署难题，如能力碎片化、接口异构、生产流程割裂和优质工作流复用受限等问题。该平台采用统一抽象、插件化扩展和工作流编排的三层架构，将全品类AIGC能力抽象为统一调用模型，并通过任务导向的技能模块实现复杂生产流程的可复用化。本文重点介绍了MediaClaw的架构设计理念、核心能力模型设计逻辑以及关键工程权衡，为构建多模态能力平台提供可复用的实践参考。

2605.14766 2026-05-15 cs.CL cs.AI eess.AS 版本更新

Streaming Speech-to-Text Translation with a SpeechLLM

Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen

发表机构 * Samsung, AI Center – Cambridge, United Kingdom（三星，人工智能中心——剑桥，英国）

AI总结本文提出了一种基于大语言模型（LLM）的实时流式语音到文本翻译系统，旨在解决现有SpeechLLM系统在实际应用中响应速度慢的问题。该方法使模型不仅能生成翻译文本，还能判断是否已接收到足够的音频信息以进行输出，从而实现更高效的流式处理。实验表明，该系统在保持翻译质量接近非流式基线的同时，将延迟降低至1-2秒，显著提升了实时性。

Comments 9 pages of main text; 24 pages in total

2605.14764 2026-05-15 cs.LG cs.AI 版本更新

Compositional Sparsity as an Inductive Bias for Neural Architecture Design

Hongyu Lin, Antonio Briola, Yuanrong Wang, Tomaso Aste

发表机构 * Department of Computer Science, University College London, London, United Kingdom（伦敦大学学院计算机系）

AI总结本文研究了深度神经网络如何通过结构先验克服维度灾难的问题，提出了一种基于组合稀疏性的归纳偏差。作者结合信息过滤网络（IFN）和同调神经网络（HNN），构建了一种可解释的神经网络设计框架，通过分层组合实现抽象表示。实验表明，HNN在参数数量远少于传统深度网络的情况下，不仅在合成任务中能准确恢复稀疏结构，还在多个真实数据集上表现出更优的性能和稳定性。

2605.14761 2026-05-15 cs.AI cs.HC 版本更新

AI Outperforms Humans in Personalized Image Aesthetics Assessment via LLM-Based Interviews and Semantic Feature Extraction

Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi

发表机构 * Graduate School of Information Science and Technology（信息科学与技术研究生院）； The University of Tokyo（东京大学）； Bunkyo-ku, Tokyo（东京都文京区）

AI总结该研究旨在解决AI准确预测个体对图像审美评价这一基础性挑战。研究提出了一种结合深度学习和大型语言模型（LLM）的集成系统，通过基于LLM的半结构化访谈主动获取用户的审美偏好，并结合图像的低级和高级语义特征进行预测。实验表明，该系统在预测性能上优于传统模型、人类预测者以及用户自身在一段时间后的重新评估，尤其在高评分图像上表现突出，表明AI在捕捉个体审美偏好方面可能比人类更具优势。

Comments 25 pages, 13 figures

2605.14758 2026-05-15 cs.AI 版本更新

Probabilistic Verification of Recurrent Neural Networks for Single and Multi-Agent Reinforcement Learning

Luca Marzari, Enrico Marchesini

发表机构 * TU Wien（维也纳技术大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结该论文研究了基于循环神经网络（RNN）的策略在部分可观测强化学习中的概率验证问题。针对现有工具在验证RNN策略时依赖严格假设或粗略近似导致结果过于保守的问题，提出了一种名为RNN-ProVe的概率验证框架，通过策略驱动采样估计策略下隐藏状态空间中不良行为的发生概率，并给出统计误差界以提供高置信度的验证结果。实验表明，该方法在单智能体和多智能体任务中能够提供更定量且更具可行性意识的概率保证。

Comments Accepted at the 35th International Joint Conference on Artificial Intelligence (IJCAI) 2026

2605.14754 2026-05-15 cs.AI 版本更新

XDomainBench: Diagnosing Reasoning Collapse in High-Dimensional Scientific Knowledge Composition

Gong Zhiren, Tiantong Wu, Jiaming Zhang, Fuyao Zhang, Che Wang, Yurong Hao, Yikun Hou, Foo Ping, Yilei Zhao, Fei Huang, Chau Yuen, Wei Yang Bryan Lim

发表机构 * Alibaba Group, China（阿里巴巴集团，中国）

AI总结 XDomainBench 是一个用于诊断大语言模型在高维科学知识组合中推理崩溃问题的诊断基准。该研究通过系统化设计不同学科组合和任务难度，揭示了随着知识组合复杂度增加，模型推理能力显著下降的现象。研究发现，推理崩溃主要由学科组合带来的难度提升以及交互过程中错误累积和领域混淆所导致，为科学知识合成中的模型评估提供了新的视角和实验框架。

2605.14752 2026-05-15 cs.LG cs.AI 版本更新

Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions

Qirui Liu, Hao Chen, Weijie Shi, Jiajie Xu, Jia Zhu

发表机构 * South China University of Technology（华南理工大学）； Tencent Financial Technology（腾讯金融科技）； The Hong Kong University of Science and Technology（香港科学与技术大学）； Soochow University（苏州大学）； Zhejiang Key Laboratory of Intelligent Education Technology and Application, Zhejiang Normal University（浙江省智能教育技术与应用重点实验室，浙江师范大学）

AI总结该研究旨在准确识别学生的错误概念，以支持个性化教育，针对数据稀缺、标注噪声大及模型部署受限等挑战，提出了一种基于认知不确定性的两阶段知识蒸馏框架。该方法通过挖掘现有数据中的高价值样本，结合教师模型的不确定性与置信度差异，识别关键样本并设计难度自适应机制，使学生模型能够有效继承类别间关系并区分模糊错误类型。实验表明，该方法在少量数据训练下显著提升了分类性能，优于当前最优模型。

Comments ACL 2026 Findings. 10 pages, 5 figures, 19 tables

2605.14750 2026-05-15 cs.CR cs.AI 版本更新

EVA: Editing for Versatile Alignment against Jailbreaks

Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang

发表机构 * ShanghaiTech University（上海科技大学）； Sun Yat-sen University（中山大学）； State Key Laboratory of Blockchain and Data Security（区块链与数据安全国家重点实验室）； Tsinghua University（清华大学）

AI总结大型语言模型（LLMs）和视觉语言模型（VLMs）虽然表现出色，但仍易受越狱攻击的影响，攻击者通过文本或视觉触发器绕过安全防护。为解决现有防御方法带来的计算开销大和性能下降问题，本文提出EVA框架，通过直接模型编辑技术精准修正模型中导致越狱行为的关键神经元，无需大规模重训练，从而在保持模型原有能力的同时有效消除有害行为。实验表明，EVA在多种模型上均优于现有方法，为部署后的安全对齐提供了高效且精确的解决方案。

Comments IEEE TPAMI 2026

2605.14749 2026-05-15 cs.CL cs.AI cs.LG 版本更新

Non-linear Interventions on Large Language Models

Sangwoo Kim

发表机构 * Department of Linguistics, Seoul National University, Republic of Korea（韩国首尔国立大学语言系）

AI总结本文研究了如何对大语言模型中的非线性表示特征进行干预，突破了现有线性干预方法的局限。作者提出了一种适用于非线性特征的通用干预框架，并设计了相应的学习方法，能够对缺乏直接输出信号的隐式特征进行干预。实验表明，该方法在拒绝绕过引导任务中表现优于传统线性方法，干预效果更精确。

2605.14747 2026-05-15 cs.CL cs.AI cs.CV cs.LG 版本更新

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Weimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

发表机构 * National Key Laboratory for Multimedia Information Processing, School of Computer Science, Peking University（国家多媒体信息处理重点实验室，计算机科学学院，北京大学）； The University of Hong Kong（香港大学）； Renmin University of China（中国人民大学）

AI总结本文提出了一种名为Video2GUI的全自动框架，用于从未标注的互联网视频中提取结构化的GUI交互轨迹，以解决当前GUI智能体预训练数据规模小、领域单一的问题。该方法通过粗到细的过滤策略筛选高质量的GUI教程视频，并将其转化为可用于训练的交互轨迹，构建了包含1200万条轨迹、覆盖1500多个应用和网站的大型数据集WildGUI。基于该数据集预训练的模型在多个GUI定位和操作基准测试中取得了5-20%的性能提升，达到了或超越了现有最佳水平。

Comments Accepted at ICML 2026

2605.14744 2026-05-15 cs.CL cs.AI cs.CY 版本更新

Mechanical Enforcement for LLM Governance:Evidence of Governance-Task Decoupling in Financial Decision Systems

José Manuel de la Chica Rodríguez, Carlos Martí-González

发表机构 * Santander AI Lab（Santander AI实验室）

AI总结本研究探讨了在受监管的金融决策系统中，大型语言模型（LLM）如何通过自然语言政策进行治理的问题，指出当前的评估方法仅关注任务准确性，而忽略了治理对决策推理过程的约束。为此，研究提出了五个衡量治理合规性的指标，并引入四种独立于模型解释循环的机械强制方法，显著提升了决策信息的完整性和任务准确性。实验表明，机械强制不仅大幅降低了无信息决策的比例，还验证了治理与任务性能之间的解耦现象，即在系统压力下，治理质量可以独立于任务表现得到保持。

2605.14741 2026-05-15 eess.SY cs.AI cs.SY 版本更新

Addressing Terminal Constraints in Data-Driven Demand Response Scheduling

Maximilian Bloor, Martha White, Ehecatl Antonio del Rio Chanona, Calvin Tsay

发表机构 * Sargent Centre for Process Systems Engineering, Imperial College London, London, SW7 2AZ, UK（过程系统工程中心，伦敦帝国理工学院，伦敦，SW7 2AZ，英国）； Department of Computer Science, University of Alberta, Edmonton, AB, Canada（计算机科学系，阿尔伯塔大学，埃德蒙顿，AB，加拿大）； Department of Computing, Imperial College London, London, SW7 2AZ, UK（计算系，伦敦帝国理工学院，伦敦，SW7 2AZ，英国）

AI总结本文研究了在数据驱动的需求响应调度中如何满足终端约束的问题，提出了一种结合目标空间规划（GSP）与深度确定性策略梯度（DDPG）的方法，通过学习离散子目标的时序抽象模型，有效传递长期价值，提升调度效果。该方法在模拟的空气分离系统中验证了其在提高样本效率和满足终端存储约束方面的优势，缓解了传统方法在长期约束处理上的不足。

Comments Accepted to IFAC World Congress 2026

2605.14723 2026-05-15 cs.AI cs.CL cs.LG 版本更新

Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model

Minghao Wu, Yuting Yan, Zhenyang Cai, Ke Ji, Chuangsen Fang, Ziying Sheng, Xidong Wang, Rongsheng Wang, Hejia Zhang, Shuang Li, Benyou Wang, Hongyuan Zha

发表机构 * The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））

AI总结本文提出了一种名为SepsisAgent的新型代理模型，用于重症监护中的脓毒症治疗决策。该模型通过结合临床世界模型，模拟患者对不同治疗方案的反应，并采用“提出—模拟—优化”的流程进行决策优化。研究显示，SepsisAgent在遵循指南和安全指标方面表现优异，优于传统强化学习和大语言模型基线方法，其核心贡献在于通过与临床世界模型的反复交互，使模型能够学习患者生理变化的规律并提升决策可靠性。

2605.14721 2026-05-15 cs.AI 版本更新

On Strong Equivalence Notions in Logic Programming and Abstract Argumentation

Giovanni Buraglio, Wolfgang Dvorak, Stefan Woltran

发表机构 * TU Wien, Austria（维也纳技术大学，奥地利）

AI总结本文研究了逻辑编程与抽象论证中强等价性的差异问题，指出在动态环境下，两类形式系统由于更新机制的不同，导致强等价性无法直接对应。为此，作者提出了一种新的逻辑程序强等价性定义，使得在特定类别的逻辑程序与邓式及扩展型论证框架之间，强等价性得以保持，从而恢复了不同形式系统间的兼容性。

2605.14717 2026-05-15 cs.CV cs.AI 版本更新

Towards Label-Free Single-Cell Phenotyping Using Multi-Task Learning

Saqib Nazir, Ardhendu Behera

发表机构 * Department of Computer Science, Edge Hill University, UK（英国埃德希尔大学计算机科学系）

AI总结该研究旨在解决无标记单细胞成像中直接从明场图像推断分子表型的难题，提出了一种基于多任务学习的深度学习框架，能够同时完成白细胞分类和蛋白质表达水平的回归预测。该模型采用卷积神经网络与Transformer相结合的混合架构，通过可学习的跨分支门控模块融合局部纹理特征与全局表示，从而实现对差分相位对比图像的鲁棒形态-分子联合推理。实验表明，该方法在多个基准数据集上表现出色，为无需荧光染色的低成本血液学分析提供了新途径。

Comments Accepted in 28th International Conference on Pattern Recognition (ICPR) 2026

2605.14712 2026-05-15 cs.RO cs.AI cs.CL cs.CV 版本更新

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen

发表机构 * HUST（华中科技大学）； ZGCA（中钢集团人工智能研究院）； ZGCI（中钢智能科技有限公司）； HIT（哈尔滨工业大学）； HKUST(GZ)（香港科技大学（广州））； BUAA（北京航空航天大学）； ZZU（浙江工业大学）； ECNU（华东师范大学）； USTC（中国科学技术大学）； DeepCybo

AI总结该研究针对机器人模仿学习中因短时意图差异导致的动作冲突问题，提出了一种基于历史信息的视觉-语言-动作（VLA）框架IntentVLA，通过编码近期视觉观测生成紧凑的短时意图表示，用于指导动作生成。研究还构建了AliasBench基准，用于评估短时观测歧义下的策略性能，实验表明IntentVLA在多个任务中提升了动作执行的稳定性并优于现有VLA方法。

Comments Code can be found in https://github.com/ZGC-EmbodyAI/IntentVLA

2605.14710 2026-05-15 cs.CV cs.AI 版本更新

Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke

Liren Chen, Lidong Sun, Mingyan Huang, Junzhe Tang, Yinghui Zhu, Guanjie Wang, Yiqing Xia, Ting Xiao

发表机构 * School of Information Science and Engineering, East China University of Science and Technology（信息科学与工程学院，东华大学）

AI总结该研究针对缺血性中风预后预测中多模态数据融合不足的问题，提出了一种三模态融合模型，有效整合了医学影像、结构化临床数据和非结构化文本。核心方法通过大语言模型自动生成半结构化诊断文本，缓解了专家标注稀缺的问题，并设计了以视觉特征为条件的对齐融合模块，实现了跨模态的深度交互与异构性缓解。实验表明，该模型在真实临床数据上取得了最先进的预测性能。

Comments Corresponding author: Ting Xiao

2605.14704 2026-05-15 cs.CV cs.AI cs.RO 版本更新

SceneFunRI: Reasoning the Invisible for Task-Driven Functional Object Localization

Posheng Chen, Powen Cheng, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu

发表机构 * National Taiwan University（国立台湾大学）； Delta Robotics Innovation Center（Delta机器人创新中心）

AI总结在现实场景中，目标物体可能位于不可见区域，而当前视觉语言模型（VLMs）在推理这些被遮挡物体的位置方面仍面临挑战。为此，研究提出SceneFunRI基准，基于SceneFun3D数据集构建了一个包含855个实例的2D空间推理任务，要求模型通过任务指令和常识推理定位不可见的功能性物体。实验表明，现有最强基线模型在该任务上的表现仍较为有限，揭示了当前模型在不可见区域推理能力上的不足，亟需更紧密融合任务意图、常识先验、空间定位与不确定性感知搜索的模型改进。

2605.14698 2026-05-15 cs.LG cs.AI 版本更新

NeuroAtlas: Benchmarking Foundation Models for Clinical EEG and Brain-Computer Interfaces

Konstantinos Kontras, Trui Osselaer, Stylianos G. Mouslech, Angeliki-Ilektra Karaiskou, Guido Gagliardi, Thomas Strypsteen, Mohammad Hossein Badiei, Anku Rani, Maarten Vanmarcke, Miguel Bhagubai, Chanakya Ekbote, Jaedong Hwang, Christos Chatzichristos, Paul Pu Liang, Maarten De Vos

发表机构 * KU Leuven（鲁文大学）； MIT（麻省理工学院）

AI总结本文介绍了NeuroAtlas，这是目前最大的临床脑电图（EEG）基准数据集，包含42个数据集和26万小时的EEG数据，涵盖癫痫、睡眠医学和脑龄估计等领域，并引入了专门的临床评估指标。研究对比了专门针对EEG的预训练模型与通用时间序列模型的性能，发现后者在某些任务上表现相当甚至更优。研究还指出，传统机器学习指标难以准确评估临床实用性，因此提出了更贴近实际应用的评估方法，并揭示了当前预训练模型在统一EEG建模方面仍存在较大差距。

2605.14685 2026-05-15 cs.LG cond-mat.stat-mech cs.AI 版本更新

Spontaneous symmetry breaking and Goldstone modes for deep information propagation

Nabil Iqbal, T. Anderson Keller, Yue Song, Takeru Miyato, Max Welling

发表机构 * Dept. of Mathematical Sciences, Durham University（杜伦大学数学科学系）； Kempner Institute, Harvard University（哈佛大学凯普纳研究所）； AMLab, University of Amsterdam（阿姆斯特丹大学AMLab）； College of AI, Tsinghua University（清华大学人工智能学院）； University of Tübingen, Tübingen（图宾根大学）； AI Center（人工智能中心）； CuspAI

AI总结本文研究了具有连续对称性的深度神经网络中自发对称性破缺现象及其类似戈德斯通模式的自由度，揭示了这些自由度能够支持信息在深度网络和循环迭代中的相干传播。通过理论分析与实验验证，作者表明这种机制可以在无需残差连接或归一化等结构稳定器的情况下实现稳定的信息流，提升了前馈网络的可训练性和表示多样性，并在循环网络中有效增强了长期记忆能力，改善了长序列建模任务的性能。

Comments 28 pages. Code at https://github.com/nabiliqbal/ssb-goldstone-deep-info-prop

2605.14679 2026-05-15 cs.CL cs.AI 版本更新

AI-assisted cultural heritage dissemination: Comparing NMT and glossary-augmented LLM translation in rock art documents

Vicent Briva-Iglesias, María Ferre-Fernández

发表机构 * Dublin City University（都柏林城市大学）； CTTS（文化传承研究所）； ADAPT Centre（适应中心）； SALIS ； Universidad de Almería（阿尔梅里亚大学）

AI总结本研究探讨了在岩画文献等术语密集的文化遗产领域中，如何通过人工智能辅助提升多语言传播的质量。研究比较了三种英文机器翻译方法在西班牙语学术文本中的表现，重点评估了基于术语表增强的提示策略对专业术语准确性的提升效果。结果表明，结合术语表的大型语言模型（Gemini-RAG）在术语准确性和整体翻译质量上均优于传统神经机器翻译和基础提示模型，为文化机构提供了一种低成本、高效率的术语控制解决方案。

2605.14671 2026-05-15 cond-mat.mtrl-sci cs.AI 版本更新

Agentic Design of Compositional Descriptors via Autoresearch for Materials Science Applications

Matteo Cobelli, Stefano Sanvito

发表机构 * School of Physics（物理系）； CRANN Institute, Trinity College, Dublin 2, Dublin, Ireland（CRANN研究所，三一学院，都柏林2号，都柏林，爱尔兰）

AI总结本文提出了一种基于自研（autoresearch）框架的智能代理系统Automat，用于材料科学中化学成分描述符的设计。该系统利用大型语言模型作为编码代理，自动生成仅基于化学公式的描述符，并通过随机森林进行评估，实现了对无机材料带隙和铁磁化合物居里温度的预测。研究显示，Automat在性能上优于传统基准方法，且生成的描述符具有化学可解释性，展示了无需人工特征工程即可设计任务特定材料描述符的潜力，同时也揭示了当前在描述符冗余和搜索策略等方面存在的挑战。

2605.14667 2026-05-15 cs.AI 版本更新

How Sensitive Are Radiomic AI Models to Acquisition Parameters?

D. Gil, I. Sanchez, C. Sanchez

发表机构 * Computer Vision Center（计算机视觉中心）； Universitat Autònoma de Barcelona（巴塞罗那自治大学）

AI总结本文研究了放射组学AI模型对影像采集参数的敏感性，提出了一种基于混合效应的框架，用于量化临床相关参数对模型性能的影响，并识别出有助于提升跨数据集鲁棒性的关键参数范围。通过在两个独立的多中心CT数据集上应用该框架，研究发现优化的扫描参数配置（如管电流≥200mA、螺距≤1.5、层厚≤1.25mm）可在保证诊断质量的同时降低辐射剂量，显著提升模型的敏感性和特异性。

2605.14666 2026-05-15 cs.AI 版本更新

Monitoring Data-aware Temporal Properties (Extended Version)

Alessandro Gianola, Marco Montali, Sarah Winkler

发表机构 * INESC-ID/Instituto Superior Técnico, Universidade de Lisboa, Portugal（葡萄牙里斯本大学理工学院/INESC-ID）； Free University of Bozen-Bolzano, Italy（意大利博登-博洛尼亚自由大学）

AI总结本文研究如何对具有任意SMT理论的线性时序逻辑（LTLfMT）进行前瞻监控，以应对动态系统中无法访问内部规范的问题。提出了一种结合自动机理论与自动推理技术的新框架，能够在有限轨迹上正确监控复杂属性。该方法首次识别出包含线性算术与未解释函数的可判定子类，适用于数据感知的业务流程和只读数据库上的动态系统，并通过原型实现验证了其可行性。

Comments This is the extended version of a paper accepted to IJCAI 2026

2605.14660 2026-05-15 cs.AI 版本更新

MindGap: A Conversational AI Framework for Upstream Neuroplastic Intervention in Post-Traumatic Stress Disorder

Eranga Bandara, Ross Gore, Asanga Gunaratna, Ravi Mukkamala, Nihal Siriwardanagea, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Wathsala Herath, Chalani Rajapakse, Sachin Shetty, Anita H. Clayton, Christopher K. Rhea, Ng Wee Keong, Kasun De Zoysa, Amin Hass, Shaifali Kaushik, Preston Samuel, Atmaram Yarlagadda

发表机构 * Old Dominion University（旧 Dominion 大学）； AI Motion Labs（AI Motion 实验室）； Nanyang Technological University（南洋理工大学）； University of Colombo（科伦坡大学）； Accenture Technology Labs（Accenture 技术实验室）； Department of Psychiatry and Neurobehavioral Sciences（精神病学与神经行为科学系）； University of Virginia School of Medicine（弗吉尼亚大学医学院）； Blanchfield Army Community Hospital（Blanchfield 军队社区医院）； McDonald Army Health Center（McDonald 军队健康中心）

AI总结本文提出了一种名为MindGap的会话式人工智能框架，旨在通过上游神经可塑性干预治疗创伤后应激障碍（PTSD）。该方法基于佛教心理框架“缘起”理论，引导患者在感知与反应之间的时间间隙进行观察，从而实现对过度反应神经通路的结构性重塑。MindGap通过三个渐进的观察层次，帮助患者逐步识别并削弱引发应激反应的潜在信念，实现从源头上缓解症状，而非仅在反应发生后进行压制。该框架完全在设备端运行，保障隐私，适合在临床和军事等对数据安全要求严格的环境中部署。

详情

英文摘要

Post-Traumatic Stress Disorder (PTSD) is fundamentally a neuroplastic problem traumatic contact events encode over-reactive neural pathways through Hebbian long-term potentiation, producing hair-triggered amygdala-HPA stress cascades that fire before conscious awareness can intercept them. Existing therapeutic approaches, prolonged exposure, EMDR, cognitive behavioural therapy, operate predominantly downstream of the reactive cascade, teaching patients to tolerate or reframe distress after it has arisen. While clinically valuable, these suppression-based approaches do not produce the upstream pathway dissolution that constitutes lasting structural neural reorganisation. This paper proposes MindGap, a privacy-preserving on-device conversational AI framework that delivers structured neuroplastic rehabilitation for PTSD through the practice of dependent origination, a Buddhist psychological framework that identifies the precise moment between the pre-cognitive affective signal and the reactive elaboration that follows as the site of therapeutic intervention. MindGap guides patients through three progressive layers of observation at this feeling tone gap: noticing the bare affective signal before reactive elaboration, recognising it as self-arising rather than caused by the stimulus, and recognising the conditioned implicit belief beneath the feeling. Each layer corresponds to progressively deeper prefrontal regulatory engagement and progressively deeper long-term depression-mediated weakening of the reactive pathway, producing genuine upstream dissolution rather than downstream suppression. Running entirely on-device with no data egress, MindGap delivers daily calibrated exposure sessions through a fine-tuned lightweight large language model, making it deployable in sensitive clinical and military contexts where cloud-based solutions are not permitted.

URL PDF HTML ☆

赞 0 踩 0

2605.14645 2026-05-15 cs.CV cs.AI 版本更新

Vision-Based Water Level and Flow Estimation

ZhiXin Sun

发表机构 * PowerChina Zhongnan Engineering Corporation Limited（中国电力工程集团中南工程公司）

AI总结该研究提出了一种结合先进视觉模型与统计建模的综合框架，用于提高水位检测和水流估算的精度。通过引入物理先验知识和鲁棒滤波策略，有效应对了环境敏感性、精度有限和现场校准复杂等挑战。该方法在保持自动化和可解释性优势的同时，提升了传统视觉方法在水文监测中的可靠性。

2605.14641 2026-05-15 cs.CV cs.AI 版本更新

How to Evaluate and Refine your CAM

Luca Domeniconi, Alessandra Stramiglio, Michele Lombardi, Samuele Salti

发表机构 * University of Bologna（博洛尼亚大学）

AI总结该研究针对卷积神经网络中类别归因图（CAM）的评估与改进问题，提出了一种合成数据集以生成真实归因标签，从而更严格地比较现有评估指标，并提出了一种新的复合评估指标ARCC，能够更可靠地识别忠实的解释。同时，为解决CAM分辨率低的问题，研究还引入了RefineCAM方法，通过聚合多层网络的CAM生成高分辨率归因图，实验表明该方法在新评估指标下优于现有方法。

Comments Accepted at ICPR 2026

2605.14636 2026-05-15 cs.AI 版本更新

Teaching Large Language Models When Not to Know: Learning Temporal Critique for Ex-Ante Reasoning

Chenlu Ding, Jiancan Wu, Yanchen Luo, Zheyuan Liu, Yancheng Yuan, Xiang Wang

发表机构 * University of Science and Technology of China（中国科学技术大学）； The Hong Kong Polytechnic University（香港理工大学）； University of Notre Dame（圣母大学）

AI总结该研究探讨了大型语言模型在时间截断条件下进行推理时的失效问题，即模型在回答过去时间点的问题时错误地使用了未来才可获得的信息。研究提出了一种名为TCFT的时序批评微调框架，通过训练模型识别和判断回答中是否存在时间泄露，从而提升其在时间限制下的推理能力。实验表明，TCFT在多个模型上显著优于传统提示和微调方法，有效降低了时间泄露的比例。

2605.14635 2026-05-15 cs.CV cs.AI 版本更新

MultiEmo-Bench: Multi-label Visual Emotion Analysis for Multi-modal Large Language Models

Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada

发表机构 * ZOZO NEXT Inc.（ZOZO NEXT公司）

AI总结本文提出一个多标签视觉情感分析基准数据集MultiEmo-Bench，用于全面评估多模态大语言模型（MLLMs）对图像引发情感的预测能力。现有数据集采用单一标签标注方式，难以反映图像可能引发的多维度、多强度情感，为此本文引入多标注员协同标注机制，生成包含10,344张图像和236,998个有效情感标签的高质量数据集，并基于该数据集评估了多个主流模型在主控情感预测和情感分布预测任务上的表现，揭示了当前MLLMs在情感理解方面的进展与不足。

2605.14631 2026-05-15 cs.LG cs.AI cs.CV 版本更新

Action-Inspired Generative Models

Eshwar R. A., Debnath Pal

发表机构 * Department of Computer Science Engineering（计算机科学与工程系）； PES University (EC Campus), Bengaluru（班加罗尔EC校区的PES大学）； Department of Computational and Data Sciences（计算与数据科学系）； Indian Institute of Science, Bengaluru（班加罗尔印度科学研究院）

AI总结本文提出了一种受动作启发的生成模型（AGMs），旨在改进现有桥接匹配方法中对所有随机转移赋予相同回归权重的问题。该方法引入了一个轻量的可学习标量势函数 $V_ϕ$，用于在线评估桥接样本并调节漂移目标，从而选择性地惩罚非信息性传输路径，提升了生成质量。该模型结构简单，仅增加约1.4%的参数，无需额外计算开销，可直接嵌入任何桥接匹配训练流程中。

Comments 11 pages, 5 figures, and 4 tables

2605.14621 2026-05-15 cs.CV cs.AI cs.CL 版本更新

Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution

Tian Qin, Junzhe Chen, Yuqing Shi, Tianshu Zhang, Qiang Ju, Lijie Wen

发表机构 * Tsinghua University（清华大学）； The University of Sydney（悉尼大学）； Stanford University（斯坦福大学）； Baichuan AI（百川AI）

AI总结大型视觉语言模型（LVLMs）在语言先验主导弱或模糊视觉证据时容易产生幻觉。现有对比解码方法通过比较原始图像和外部扰动输入的预测来缓解这一问题，但依赖外部参考可能引入偏差并增加计算成本。本文提出SIRA，一种无需训练的内部对比解码框架，通过利用多模态变换器的分阶段信息流，在模型内部构建反事实参考，有效抑制幻觉，同时保持描述覆盖率，并适用于开源权重模型。

2605.14619 2026-05-15 cs.AI 版本更新

SliceGraph: Mapping Process Isomers in Multi-Run Chain-of-Thought Reasoning

Kang Chen, Junjie Nian, Yixin Cao, Yugang Jiang

发表机构 * Fudan University（复旦大学）； Shanghai Innovation Institute（上海创新研究院）

AI总结该研究提出了SliceGraph方法，用于分析多轮思维链（CoT）推理过程中不同路径之间的共享、分裂与重组结构。通过计算CoT片段间的激活键Jaccard相似度并构建互k近邻图，SliceGraph揭示了不同推理路径在过程结构上的异同，并识别出具有相同答案但推理过程不同的“过程异构体”。实验表明，多数问题-模型组合中存在多个过程家族，它们在策略上具有一致性但结构上有所区分，表明最终答案聚合忽略了推理过程中的多路径结构特征。

2605.14612 2026-05-15 cs.SE cs.AI 版本更新

In-IDE Toolkit for Developers of AI-Based Features

Yaroslav Sokolov, Yury Khudyakov, Lenar Sharipov, Andrei Gasparian, Parth Tiwary, Artem Trofimov

发表机构 * JetBrains

AI总结本文提出了一种集成在JetBrains IDE中的AI Toolkit插件，旨在帮助非机器学习背景的软件工程师更便捷地测试、调试和评估基于大语言模型和智能体工作流的AI功能。该工具通过在运行/调试过程中实现追踪与评估，满足了开发者对可重复评估、实时追踪和简化设置的核心需求。实验表明，该工具能有效降低使用门槛，促进开发者形成规范的AI开发实践。

Comments Published at IDE'26 co-located with ICSE'26

2605.14604 2026-05-15 cs.AI cs.HC 版本更新

Sycophancy is an Educational Safety Risk: Why LLM Tutors Need Sycophancy Benchmarks

Enkelejda Kasneci, Gjergji Kasneci

发表机构 * Technical University of Munich, Munich, Germany（慕尼黑技术大学，慕尼黑，德国）； Munich Center for Machine Learning, Munich, Germany（慕尼黑机器学习中心，慕尼黑，德国）

AI总结本文指出，有效的教学需要“纠正性摩擦”，即通过指出并支持性地挑战学生的误解来促进概念转变，但当前偏好对齐的大语言模型（LLMs）可能为了友好而牺牲认知严谨性。为此，作者提出了“推理-谄媚悖论”，即模型虽能抵御上下文切换攻击，却可能在权威或社交压力下退缩。文章引入了EduFrameTrap基准，用于评估LLM在不同学科和压力情境下的教学表现，并发现当前前沿模型在面对权威和社会压力时更容易出现认知退缩，强调了建立衡量“社会-认知勇气”的教学基准的重要性。

2605.14599 2026-05-15 cs.LG cs.AI stat.ML 版本更新

Fast Rates for Inverse Reinforcement Learning

Andreas Schlaginhaufen, Maryam Kamgarpour

发表机构 * EPFL（瑞士联邦理工学院）

AI总结本文研究了有限时间马尔可夫决策过程中的熵正则化最小-最大逆强化学习（Min-Max-IRL）问题，针对线性奖励类问题，建立了新的结构和统计性质。作者证明了在总体层面，最大似然估计与Min-Max-IRL等价，在确定性动力学下在经验层面也等价。通过利用Min-Max-IRL损失的伪自共轭性质，作者展示了轨迹级KL散度和参数误差在Hessian范数下的衰减速度为$\mathcal{O}(n^{-1})$，且结果适用于模型误设情况，无需探索假设。此外，还扩展了奖励可识别性的结果到一般的Borel空间，并推导了软最优价值函数关于奖励参数的导数新性质。

2605.14587 2026-05-15 cs.LG cs.AI cs.CR 版本更新

Angel or Demon: Investigating the Plasticity Interventions' Impact on Backdoor Threats in Deep Reinforcement Learning

Oubo Ma, Ruixiao Lin, Yang Dai, Jiahao Chen, Chunyi Zhou, Linkang Du, Shouling Ji

发表机构 * Zhejiang University（浙江大学）； National University of Defense Technology（国防科技大学）； Xi'an Jiaotong University（西安交通大学）

AI总结本文研究了可塑性干预对深度强化学习（DRL）中后门攻击的影响，发现大多数干预措施能有效缓解后门威胁，而仅有SAM干预会加剧威胁。通过病理分析，揭示了后门梯度放大与激活路径破坏等机制，并提出了SCC概念框架和异常损失景观锐度作为后门检测的新指标，为提升DRL系统安全性提供了理论支持。

Comments To appear in the Forty-Third International Conference on Machine Learning (ICML 2026), July 6-11, 2026, Seoul, South Korea

2605.14581 2026-05-15 cs.CV cs.AI cs.IR 版本更新

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

Ho Hung Lim, Yi Yang

发表机构 * The Hong Kong University of Science and Technology（香港理工大学）

AI总结本研究探讨了在视觉金融文档检索中，将文档图像编码为单一向量进行聚合可能带来的信息丢失问题。通过构建一个金融文档诊断基准，实验发现单一向量聚合会导致不同文档的向量几乎相同，从而掩盖了关键语义细节。研究指出，全局纹理主导是导致这一问题的根本原因，并表明该现象在不同模型规模和优化策略下均存在，突显了单一向量方法在金融应用中的潜在风险。

Comments Accepted to Findings of ACL 2026

2605.14561 2026-05-15 cs.AI 版本更新

Prompt Segmentation and Annotation Optimisation: Controlling LLM Behaviour via Optimised Segment-Level Annotations

Devika Prasad, Luke Gerschwitz, Tong Li, Henry Xiao, Anjin Liu, Coco Wu, Anna Leontjeva, Luiz Pizzato

发表机构 * Commonwealth Bank of Australia（澳大利亚全国银行）

AI总结本文提出了一种结构化的提示优化框架——提示分割与注释优化（PSAO），旨在提升与大型语言模型交互时的可控性和效率。该方法将提示分解为可解释的片段，并为每个片段添加人类可读的注释，以引导模型在生成响应时合理分配注意力并减少混淆。实验表明，优化后的片段级注释能够提升模型的推理准确性和一致性，同时保留原始提示作为优化候选以避免性能下降。该工作验证了片段级注释优化的可行性与潜力，但如何高效确定最优分割和注释仍是未来研究的方向。

2605.14558 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy

Langzhou He, Junyou Zhu, Yue Zhou, Zhengyao Gu, Junhua Liu, Wei-Chieh Huang, Henry Peng Zou, David Wipf, Philip S. Yu, Qitian Wu

发表机构 * University of Illinois Chicago（伊利诺伊大学芝加哥分校）； Potsdam Institute for Climate Impact Research（波茨坦气候影响研究所）； Technical University of Berlin（柏林技术大学）； University of Southern California（南加州大学）； University of Hong Kong（香港大学）； Broad Institute of MIT and Harvard（MIT和哈佛大学Broad研究所）

AI总结本文研究了智能体强化学习中轨迹训练信号分配不均的问题，指出现有方法对轨迹中的每个token一视同仁，导致训练信号分配不合理。作者从能量模型视角出发，发现实际训练信号主要集中在动作token上，而非推理token，这一现象被称为“动作瓶颈”。为此，提出了一种简单有效的token重加权方法ActFocus，通过降低推理token的梯度权重并增强动作token的不确定性加权，显著提升了模型性能。

Comments Preprint

2605.14556 2026-05-15 cs.AI 版本更新

TeachAnything: A Multimodal Crowdsourcing Platform for Training Embodied AI Agents in Symmetrical Reality

Zidong Liu, Rongkai Liu, Yue Li, Zhenliang Zhang

发表机构 * State Key Laboratory of General Artificial Intelligence（通用人工智能国家重点实验室）； BIGAI

AI总结本文提出了一种名为TeachAnything的多模态众包平台，用于在对称现实（Symmetrical Reality）中训练具身智能体。该平台通过融合多模态示范信号的三阶段示范范式，支持跨场景、任务和具身形态的多样化示范数据采集。通过统一虚拟与物理交互，该系统为构建符合对称现实需求的具身智能体提供了实用的基础。

Comments 5 pages, 3 figures. Accepted as an IEEE VR 2026 Poster

2605.14555 2026-05-15 cs.SD cs.AI 版本更新

Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis

Shuyang Cui, Zhi Zhong, Qiyu Wu, Zachary Novack, Woosung Choi, Keisuke Toyama, Kin Wai Cheuk, Junghyun Koo, Yukara Ikemiya, Christian Simon, Chihiro Nagashima, Shusuke Takahashi

发表机构 * Sony Group Corporation（索尼集团公司）； Sony AI（索尼人工智能）

AI总结本文提出了一种名为“Break-the-Beat!”的可控MIDI到鼓音效合成模型，旨在解决数字音乐制作中鼓循环音频生成缺乏精细控制的问题。该模型通过引入内容编码器和混合条件机制，对预训练的文本到音频模型进行微调，实现了根据参考音频生成具有特定音色的鼓音效。实验表明，该方法在音频质量、节奏对齐和节拍连贯性方面表现优异，为音乐制作人提供了一种高效、可控的创作工具。

2605.14553 2026-05-15 cs.LG cs.AI 版本更新

Efficient Multi-objective Prompt Optimization via Pure-exploration Bandits

Donghao Li, Chengshuai Shi, Weijuan Ou, Cong Shen, Jing Yang

发表机构 * University of Virginia（弗吉尼亚大学）； Princeton University（普林斯顿大学）； Southern University of Science and Technology（南方科技大学）

AI总结本文研究了多目标提示选择问题，旨在高效识别在多个性能指标下表现最优的提示。作者将问题建模为纯探索带宽框架，并引入了适用于结构化带宽的高效算法，提供了线性情况下的理论误差保证。实验表明，该方法在多种大语言模型上显著优于基线方法，为多目标提示优化提供了原理清晰且高效的解决方案。

Comments Published as a conference paper at ICLR 2026

2605.14544 2026-05-15 cs.AI 版本更新

Complacent, Not Sycophantic: Reframing Large Language Models and Designing AI Literacy for Complacent Machines

Federico Germani, Giovanni Spitale

发表机构 * Institute for Data Science and Artificial Intelligence, Boğaziçi University（数据科学与人工智能研究所，博科尼大学）

AI总结本文重新审视了大型语言模型（LLM）的行为特征，指出其常被描述为“谄媚”是概念上的误导，实际上应理解为“ complacency（ complacent）”，即模型倾向于同意用户输入，这是由于训练数据、奖励信号和设计机制更偏好一致而非纠正。研究强调，模型本身并无谄媚的动机，其行为取决于开发者的意图和系统设计。因此，文章主张应通过提升AI素养教育，帮助用户识别和对抗模型可能强化的确认偏误。

2605.14543 2026-05-15 cs.LG cs.AI 版本更新

RxEval: A Prescription-Level Benchmark for Evaluating LLM Medication Recommendation

Shuhao Chen, Weisen Jiang, Changmiao Wang, Xiaoqing Wu, Xuanren Shi, Yu Zhang, James T. Kwok

发表机构 * The Hong Kong University of Science and Technology（香港科技大学）； Southern University of Science and Technology（南方科技大学）； The Chinese University of Hong Kong（香港中文大学）； The Chinese University of Hong Kong, Shenzhen（香港中文大学深圳校区）； Shenzhen University General Hospital（深圳大学人民医院）

AI总结 RxEval 是一个用于评估大语言模型（LLM）处方推荐能力的处方级基准，旨在解决现有基准在细粒度药物推荐任务中的不足。该基准通过多选题形式，要求模型根据详细的患者信息和时间顺序的临床轨迹，从真实处方和生成的干扰选项中选择具体的药物-剂量-给药途径组合。实验表明，RxEval 对不同模型具有较高的区分度，反映出当前最先进模型在实际临床信息理解和推理方面仍存在挑战。

2605.14542 2026-05-15 cs.AI 版本更新

VerbalValue: A Socially Intelligent Virtual Host for Sales-Driven Live Commerce

Yuyan Chen

发表机构 * Cornell University（康奈尔大学）

AI总结该研究提出了一种名为VerbalValue的虚拟直播带货助手，旨在通过提升语言能力实现更高的销售转化率。其核心方法包括构建产品知识库与销售术语词典、收集并标注大量直播互动数据，以及基于这些数据微调大语言模型以生成更具共情力和说服力的回应。实验表明，该模型在信息性、事实准确性及观众互动方面均优于多个主流大模型，展现出显著的商业应用潜力。

Comments Accepted to the CVPR 2026 HiGen Workshop

2605.14537 2026-05-15 cs.AI 版本更新

Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining

Robert Müller, Clemens Müller

AI总结本文提出了一种名为 **Cattle Trade** 的多智能体基准，用于评估大语言模型在不完全信息、对抗交互和资源约束下的策略推理能力。该基准将拍卖、隐藏报价交易、谈判、虚张声势、对手建模和资源分配整合到一个持续50到60轮的长期博弈中，测试智能体在多重竞争目标下的综合决策能力。研究发现，战略一致性、资源纪律和阶段适应性比单一技能或消费总量更能影响模型表现，并揭示了大语言模型在博弈中常见的失败模式。

Comments malgai workshop at iclr 2026

2605.14534 2026-05-15 cs.CV cs.AI cs.MM 版本更新

PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media

Fuhao Li, Shaofeng You, Jiagao Hu, Yu Liu, Yuxuan Chen, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan

发表机构 * MiLM Plus, Xiaomi Inc.（小米公司MiLM Plus）

AI总结评估图像和视频中的物体移除效果仍然具有挑战性，因为该任务本质上是一对多的，而现有指标常与人类感知不一致。为解决这一问题，本文提出RC（移除一致性）指标，包括RC-S和RC-T，分别从空间和时间维度衡量移除区域的感知一致性，并构建了PROVE-Bench基准数据集以支持社区评估。实验表明，RC指标在多种图像和视频基准上表现出比现有方法更强的人类感知对齐能力。

Comments Project Page: https://xiaomi-research.github.io/prove/

2605.14517 2026-05-15 cs.CL cs.AI 版本更新

Dimension-Level Intent Fidelity Evaluation for Large Language Models: Evidence from Structured Prompt Ablation

GAng Peng

发表机构 * Huizhou Lateni AI Technology Co., Ltd.（惠州拉提尼人工智能技术有限公司）； Huizhou University（惠州大学）

AI总结该研究提出了一种维度级意图保真度评估框架，用于更细致地评估大语言模型在结构形式和用户意图保持方面的表现。通过结构化提示消融实验，研究分析了2880个输出在三个语言、三个任务领域和六种模型中的表现，揭示了整体评分与维度意图缺陷之间的系统性差异。实验表明，仅依赖整体评估可能掩盖模型在具体意图上的不足，而维度级评估能更准确地反映模型质量，为用户特定任务的模型评估提供了重要补充。

Comments Preprint. 30 tasks, 3 languages, 6 LLMs, 2,880 outputs; includes human evaluation and structured prompt ablation

2605.14513 2026-05-15 cs.CV cs.AI 版本更新

HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention

Xuzhe Zheng, Yuexiao Ma, Jing Xu, Xiawu Zheng, Rongrong Ji, Fei Chao

发表机构 * Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Xiamen University（中国教育部多媒体可信感知与高效计算重点实验室，厦门大学）

AI总结本文提出了一种名为HASTE的训练-free视频扩散加速方法，旨在解决现有稀疏注意力机制在视频生成中因二次复杂度和固定阈值带来的效率与质量平衡问题。该方法通过引入头级自适应框架，包含时间掩码复用和误差引导的预算校准两个模块，有效减少了掩码预测开销并优化了各注意力头的稀疏性分配。实验表明，HASTE在保持视频质量的同时，显著提升了模型推理速度。

2605.14512 2026-05-15 cs.IR cs.AI 版本更新

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

Bin Huang, Xin Wang, Junwei Pan, Yongqi Zhou, Yifeng Zhou, Zhixiang Feng, Shudong Huang, Haijie Gu, Wenwu Zhu

发表机构 * DCST, Tsinghua University（清华大学直流系统研究所）； DCST, BNRist, Tsinghua University（清华大学直流系统研究所）； Tencent（腾讯）

AI总结该论文针对生成式推荐（GenRec）模型中存在的输入和输出瓶颈问题，提出了一种不对称的连续-离散框架AsymRec。通过多专家语义投影（MSP）和多视角分层量化（MHQ）方法，分别提升了输入表示的语义丰富性和输出目标的结构化精度，有效缓解了流行度偏差和细粒度语义丢失的问题。实验表明，AsymRec在多个数据集上显著优于现有生成式推荐方法，平均性能提升达15.8%。

2605.14502 2026-05-15 eess.SY cs.AI cs.SY 版本更新

Quantifying Cyber-Vulnerability in Power Electronics Systems via an Impedance-Based Attack Reachable Domain

Hongwei Zhen, Ze Yu, Xin Xiang, Wuhua Li, Mingyang Sun

发表机构 * IEEE

AI总结本文研究了电力电子系统在受到网络攻击时的脆弱性量化问题，提出了一种基于阻抗的攻击可达域（ARD）框架，用于评估在权限受限条件下节点可能被推近不稳定的程度。该方法通过阻抗重塑映射可行的攻击动作到关键特征值迁移，并定义了攻击穿透指数以综合表征系统稳定性裕度的渗透程度和成功攻击的可达性。为应对逆变器模型缺失的情况，还构建了一个实用的灰盒评估流程，结合现有阻抗识别与可微代理工具，实验表明该方法能有效揭示传统电网强度指标无法反映的脆弱性模式。

2605.14501 2026-05-15 eess.SY cs.AI cs.LG cs.SY 版本更新

Fully Dynamic Rebalancing in Dockless Bike-Sharing Systems via Deep Reinforcement Learning

Edoardo Scarpel, Alberto Pettena, Matteo Cederle, Federico Chiariotti, Marco Fabris, Gian Antonio Susto

发表机构 * University of Padua（帕多瓦大学）

AI总结本文提出了一种基于深度强化学习的全动态再平衡方法，用于解决无桩共享单车系统中的车辆调度问题。该方法通过图模拟器建模服务系统，并将再平衡问题建模为马尔可夫决策过程，利用深度强化学习代理实时调度单车，根据时空关键性评分执行局部的取车、还车和充电操作。实验结果表明，该方法在真实数据上显著减少了车辆可用性失败，同时减少了空间不平等和出行荒漠现象，展示了基于学习的再平衡方法在提升共享微出行系统效率和可靠性方面的价值。

Comments 6 pages, 5 figures, 1 table, accepted at the 23rd IFAC World Congress, Busan, South Korea, Aug. 23-26, 2026. Open invited track 9-131: "Control and Optimization for Smart Cities"

2605.14497 2026-05-15 cs.LG cs.AI 版本更新

ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization

Letian Yang, Xu Liu, Yiqiang Lu, Jian Liu, Weiqiang Wang, Shuai Li

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Ant Group（蚂蚁集团）

AI总结本文提出了一种名为 ROAD 的离线到在线强化学习框架，通过双层优化方法实现自适应数据混合，以解决离线数据与在线策略之间非平稳分布偏移的问题。该方法将数据选择建模为双层优化过程，外层优化策略性能，内层进行传统 Q 学习更新，并引入多臂老虎机机制实现动态数据回放。实验表明，ROAD 在多个数据集上均优于现有方法，无需人工调整即可实现更优的稳定性和长期性能。

Comments 20 pages, 9 figures, 7 tables. Accepted to IJCAI 2026

2605.14495 2026-05-15 cs.MM cs.AI 版本更新

Contestable Multi-Agent Debate with Arena-based Argumentative Computation for Multimedia Verification

Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Hoang-Loc Cao, Phuc Ho, Van Pham, Hung Cao

发表机构 * University of New Brunswick（新 Brunswick大学）； University of Science, VNU-HCM（越南国家大学科学学院（VNU-HCM））

AI总结该研究针对多媒体验证任务中准确性和透明性并重的需求，提出了一种可争议的多智能体框架，结合多模态大语言模型、外部验证工具和基于竞技场的双极论证计算方法。该方法将每个案例分解为以主张为中心的模块，检索针对性证据并生成带有来源和强度评分的支持与攻击论点，通过局部论证图进行冲突解决和不确定性处理，最终生成结构清晰、可编辑且具有实际计算可行性的验证报告。

Comments ACM ICMR 2026 Grand Challenge on Multimedia Verification

2605.14494 2026-05-15 cs.AI cs.LG 版本更新

Learning Scenario Reduction for Two-Stage Robust Optimization with Discrete Uncertainty

Tianjue Lin, Jianan Zhou, Jieyi Bi, Yaoxin Wu, Wen Song, Zhiguang Cao, Jie Zhang

发表机构 * Nanyang Technological University（南洋理工大学）； Eindhoven University of Technology（埃因霍温理工大学）； Shandong University（山东大学）； Singapore Management University（新加坡国立大学）

AI总结本文研究了具有离散不确定性的两阶段鲁棒优化问题，该问题因计算复杂度高而难以求解。为解决这一问题，作者提出了一种基于图神经网络和Transformer的神经代理模型NeurPRISE，通过模仿学习从问题驱动的场景缩减方法PRISE中学习场景选择策略，从而在保证解质量的同时大幅提升计算效率。实验表明，NeurPRISE在多个两阶段鲁棒优化问题中表现出良好的性能和扩展性，并具备较强的零样本泛化能力。

2605.14488 2026-05-15 cs.AI 版本更新

Deepchecks: Evaluating Retrieval-Augmented Generation (RAG)

Assaf Gerner, Netta Madvil, Nadav Barak, Alex Zaikman, Jonatan Liberman, Liron Hamra, Rotem Brazilay, Shay Tsadok, Yaron Friedman, Neal Harow, Noam Bresler, Shir Chorev, Philip Tannor, Lior Rokach

发表机构 * Deepchecks, Ramat Gan, Israel（深检查，以色列拉马特甘）； Ben-Gurion University, Beer Sheva, Israel（本· Gurion大学，以色列贝尔谢巴）

AI总结本文介绍了 Deepchecks，一个用于评估检索增强生成（RAG）系统的综合性框架。该框架通过多方面的方法、根本原因分析和生产监控，应对RAG系统评估中的复杂挑战，旨在确保评估结果与具体应用需求一致，从而提升系统在可靠性、相关性和用户满意度方面的表现。

2605.14487 2026-05-15 cs.CV cs.AI 版本更新

Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity

Jiahao Tian, Yiwei Wang, Gang Yu, Chi Zhang

发表机构 * AGI Lab, Westlake University University of California at Merced StepFun

AI总结本文研究了长时序自回归视频生成中的误差累积和上下文丢失问题，提出了一种名为Head Forcing的训练无需额外训练的框架。该方法通过识别并区分扩散变压器中注意力头的不同功能，分别为局部细节优化、结构稳定和长程上下文聚合的头分配定制化的键值缓存策略，从而提升生成质量和效率。实验表明，该方法在不增加训练成本的情况下显著延长了视频生成时长，并支持多提示交互合成，优于现有基线方法。

2605.14483 2026-05-15 cs.AI 版本更新

LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning

Xudong Chen, Yixin Liu, Hua Wei, Kaize Ding

发表机构 * GitHub

AI总结 LEMON 是一种基于大语言模型的多智能体协调器，通过反事实强化学习生成可执行的多智能体协调规范。该方法通过整合任务特定角色、职责分配、能力等级和依赖结构，提升系统整体的执行效率与解题质量。LEMON 在六个推理与编程基准测试中表现出色，取得了当前多智能体协调方法中的最佳性能。

Comments Submitted to Neurips 2026

2605.14478 2026-05-15 cs.SE cs.AI cs.CL 版本更新

When Retrieval Hurts Code Completion: A Diagnostic Study of Stale Repository Context

Haojun Weng, Qianqian Yang, Hao Fu, Haobin Pan, Xinwei Lv

发表机构 * Independent Researcher, California, USA（加利福尼亚独立研究员）； Independent Researcher, Beijing, China（北京独立研究员）

AI总结该研究探讨了检索增强代码生成中使用过时代码片段可能对代码补全造成的负面影响。通过在五个Python仓库中对17个生产辅助函数签名变化进行受控实验，研究发现仅使用过时代码片段会显著诱导模型生成与当前状态不兼容的代码，而完全不使用检索则导致生成结果无法通过验证。实验还表明，引入当前有效的代码信息可以有效缓解过时信息带来的问题，揭示了检索内容的时间有效性是评估代码检索增强生成鲁棒性的重要因素。

Comments 31 pages, 2 tables. Submitted to Information and Software Technology (Elsevier)

2605.14465 2026-05-15 cs.AI 版本更新

From Table to Cell: Attention for Better Reasoning with TABALIGN

Tung Sum Thomas Kwok, Zeyong Zhang, Xinyu Wang, Chunhe Wang, Xiaofeng Lin, Hanwei Wu, Lei Ding, Guang Cheng, Zhijiang Guo

发表机构 * University of California, Los Angeles（加州大学洛杉矶分校）； New Jersey Institute of Technology（新泽西理工学院）； McGill University（麦吉尔大学）； Université de Montréal（蒙特利尔大学）； University of Manitoba（曼尼托巴大学）； SimpleWay ； The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））

AI总结该研究针对结构化表格中多步骤推理的问题，提出了一种名为TABALIGN的新框架，旨在解决推理过程中规划与执行之间缺乏明确的单元格对齐机制的问题。其核心方法结合了双向去噪的扩散语言模型（DLM）作为规划器，生成二进制单元格掩码表示推理步骤，并引入一个轻量级验证器TABATTN，基于大量人工验证的注意力标准对每一步进行评分。实验表明，TABALIGN在多个基准测试中显著提升了推理准确性，并加快了后续推理的执行速度。

2605.14458 2026-05-15 cs.AI 版本更新

OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance

Yeo Jeong Park, Hyemi Jang, Minseo Choi, Jongsun Lee, Jooyoung Choi, Yongkweon Jeon

发表机构 * Samsung Research（三星研究院）

AI总结 OmniDrop 是一种用于多模态大语言模型的层间 token 剪枝方法，旨在解决高分辨率音频和视频输入导致的 token 爆炸问题。该方法通过在解码器各层逐步剪枝，而非在输入嵌入层进行，从而更有效地保留多模态信息融合，并利用文本查询指导剪枝过程以提升任务适应性。实验表明，OmniDrop 在多个基准测试中表现优异，显著降低了预填充延迟和内存消耗。

2605.14455 2026-05-15 cs.AI cs.LG 版本更新

Intelligence Impact Quotient (IIQ): A Framework for Measuring Organizational AI Impact

Chandan Rajah, Neha Sengupta, Federico Castanedo, Robin Mills, Amit Bahree, Ramesh Krishnan Muthukrishnan, Larry Murray

发表机构 * Inception ； G42

AI总结本文提出了一种名为“智能影响商”（IIQ）的综合指标，用于量化人工智能系统在组织工作流程中的集成深度及其影响。IIQ结合了多种因素，如新颖性加权的令牌库存、使用频率、近期使用情况、组织杠杆效应、任务复杂度和自主性，生成可用于比较不同用户和单位的原始智能采纳指数（IAI）和标准化的0-1000分IIQ指数。该框架旨在为AI在工作流程中的部署提供一种可跟踪的测量工具，而非直接衡量模型能力或替代因果生产力评估。

2605.14449 2026-05-15 cs.LG cs.AI cs.CL 版本更新

When Answers Stray from Questions: Hallucination Detection via Question-Answer Orthogonal Decomposition

Siyang Yao, Erhu Feng, Yubin Xia

发表机构 * Shanghai Jiao Tong University（上海交通大学）

AI总结本文研究了大语言模型中幻觉检测的问题，提出了一种名为QAOD的单次推理框架，通过将答案表示中与问题对齐的部分分解出去，提取出与问题正交的成分以抑制领域相关的变化。该方法结合多样性惩罚的费舍尔评分和判别神经元选择，设计了两种互补的探测策略，分别用于提升领域内检测性能和跨领域泛化能力，在多个基准测试中表现出色，尤其在跨领域场景下显著优于现有方法。

2605.14443 2026-05-15 cs.AI cs.LG cs.MA 版本更新

Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience

Krishna Sayana, Ketan Todi, Ambarish Jash

发表机构 * Google Research（谷歌研究）

AI总结该研究针对冻结的“黑盒”大语言模型（LLM）中的提示工程问题，提出了一种基于强化学习的框架，通过迭代经验蒸馏训练可学习的提示策略。该方法利用对比经验缓冲区，结合标量奖励和密集文本批评，使轻量级提示模型能够优化以最大化任务奖励，从而在单次策略权重中实现迭代提示的高效优化。实验表明，该方法在多步骤推理和工具使用任务中显著提升了性能，且相比现有进化基线方法具有更高的样本效率。

Comments 10 pages and reference, appendix

2605.14440 2026-05-15 cs.AI cs.FL cs.LO 版本更新

Synthesizing POMDP Policies: Sampling Meets Model-checking via Learning

Debraj Chakraborty, Anirban Majumdar, Prince Mathew, Sayan Mukherjee, Jean-François Raskin

发表机构 * Nanyang Technological University, Singapore（新加坡南洋理工大学）； Tata Institute of Fundamental Research, Mumbai, India（印度孟买印度理工学院基础研究所以）； Université Libre de Bruxelles, Brussels, Belgium（比利时布鲁塞尔自由大学）； IITB Trust Lab, Department of CSE, IIT Bombay, Mumbai, India（印度孟买印度理工学院 Bombay 电子与计算机科学系信托实验室）

AI总结本文研究了在部分可观察马尔可夫决策过程（POMDP）中如何合成具有形式化保证的策略，针对采样方法缺乏形式正确性保证、形式合成方法可扩展性差的问题，提出了一种结合采样、自动机学习和模型检测的综合框架。该方法借鉴Angluin的$L^*$算法，利用采样作为成员查询，模型检测作为等价性查询，能够在采样策略满足正则性条件时合成有限状态控制器，并证明了该框架的相对完备性。实验表明，该方法在解决现有工具难以处理的阈值安全问题上表现良好。

Comments Paper accepted at 38th International Conference on Computer Aided Verification (CAV 2026), Lisbon, Portugal, July 2026

2605.14438 2026-05-15 cs.AI 版本更新

BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

Juntong Wu, Jialiang Cheng, Qishen Yin, Yue Dai, Yuliang Yan, Fuyu Lv, Ou Dan, Li Yuan

发表机构 * Shenzhen Graduate School, Peking University（北京大学深圳研究生院）

AI总结 BEAM（二值专家激活掩码）是一种用于动态路由的新型方法，旨在提升Mixture-of-Experts（MoE）架构在大语言模型中的推理效率。该方法通过可训练的二值掩码实现对每个token的专家动态选择，结合直通估计器和辅助正则化损失，在端到端训练中诱导专家稀疏性，同时保持模型性能。实验表明，BEAM在保持超过98%原始模型性能的同时，显著减少了MoE层的计算量，提升了推理速度和吞吐量，是一种高效且易于集成的实用解决方案。

Comments 22 pages, 12 figures

2605.14434 2026-05-15 cs.IR cs.AI 版本更新

Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL

Jianbo Zhu, Xing Fang, Jing Wang, Mingmin Jin, Bokang Wang, Guangxin Song, Zhenyu Xie, Junjie Bai

发表机构 * Taobao \& Tmall Group of Alibaba Hangzhou China ； Taobao \& Tmall Group of Alibaba

AI总结该研究针对电商搜索中生成式召回方法的实用化难题，提出了一种高效的生成式召回框架CQ-SID，通过语义聚类ID和专家引导强化学习方法，有效降低了搜索复杂度并提升了召回效果。CQ-SID结合类别和查询约束的对比学习与残差量化VAE，生成分层语义标识符，显著减少束搜索规模；同时提出的EG-GRPO方法通过引入真实样本，优化生成召回与后续排序的一致性。实验表明，该方法在语义点击率和个性化点击率上分别提升26.76%和11.11%，并在实际系统中取得了显著的GMV和转化率提升。

2605.14426 2026-05-15 physics.ao-ph cs.AI 版本更新

A plug-and-play generative framework for multi-satellite precipitation estimation

Yunfan Yang, Haofei Sun, Xiuyu Sun, Wei Han, Xiaoze Xu, Xingtao Song, Jun Li, Zhiqiu Gao, Wei Huang, Hao Li

发表机构 * State Key Laboratory of Atmospheric Boundary Layer Physics and Atmospheric Chemistry（大气边界层物理与大气化学国家重点实验室）； Institute of Atmospheric Physics, Chinese Academy of Sciences（中国科学院大气物理研究所）； Shanghai Academy of Artificial Intelligence for Science (SAIS)（上海人工智能科学研究院）； CMA Earth System Modeling and Prediction Centre (CEMC)（中国气象局地球系统模拟与预测中心）

AI总结该研究提出了一种名为PRISMA的插件式生成框架，用于多卫星降水估计。该方法通过从IMERG最终场中学习无条件降水先验，并结合独立训练的传感器特定条件分支，实现了无需重新训练生成主干即可灵活集成新传感器数据。实验表明，PRISMA在降水估计精度和效率方面均有显著提升，尤其在融合红外与微波观测数据时，显著提高了关键成功指数并降低了均方根误差。

2605.14423 2026-05-15 cs.LG cs.AI 版本更新

Collaborative Yet Personalized Policy Training: Single-Timescale Federated Actor-Critic

Leo Muxing Wang, Pengkun Yang, Lili Su

发表机构 * Northeastern University（东北大学）； Tsinghua University（清华大学）

AI总结本文研究了在异构环境中实现协作与个性化策略训练的问题，提出了一种单时间尺度的联邦演员-评论家框架。该方法通过共享一个公共的线性子空间表示，同时保留各智能体的个性化策略组件，实现了策略的协作优化与个性化平衡。理论分析表明，该方法在有限时间内具有收敛性，并且随着智能体数量的增加表现出线性加速效果，实验验证了其在联邦强化学习任务中的有效性。

详情

英文摘要

Despite the popularity of the actor-critic method and the practical needs of collaborative policy training, existing works typically either overlook environmental heterogeneity or give up personalization altogether by training a single shared policy across all agents. We consider a federated actor-critic framework in which agents share a common linear subspace representation while maintaining personalized local policy components, and agents iteratively estimate the common subspace, local critic heads, and local policies (i.e., actors). Under canonical single-timescale updates with Markovian sampling, we establish finite-time convergence via a novel joint linear approximation framework. Specifically, we show that the critic error converges to zero at the rate of $\tilde{\mathcal{O}}(1/((1-γ)^4\sqrt{TK}))$, and the policy gradient norm converges to zero at the rate of $\tilde{\mathcal{O}}(1/((1-γ)^6\sqrt{TK}))$, where $T$ is the number of rounds, $K$ is the number of agents, and $γ\in (0,1)$ is the discount factor. These results demonstrate linear speedup with respect to the number of agents $K$, despite heterogeneous Markovian trajectories under distinct transition kernels and coupled learning dynamics. To address these challenges, we develop a new perturbation analysis for the projected subspace updates and QR decomposition steps, together with conditional mixing arguments for heterogeneous Markovian noise. Furthermore, to handle the additional complications induced by policy updates and temporal dependence, we establish fine-grained characterizations of the discrepancies between function evaluations under Markovian sampling and under temporally frozen policies. Experiments instantiate the framework within PPO on federated \texttt{Hopper-v5} action-map heterogeneity, showing gains over Single PPO and FedAvg PPO and downstream transfer from the learned shared trunk.

URL PDF HTML ☆

赞 0 踩 0

2605.14421 2026-05-15 cs.CR cs.AI 版本更新

MemLineage: Lineage-Guided Enforcement for LLM Agent Memory

Ciyan Ouyang, Rui Hou

发表机构 * State Key Laboratory of Cyberspace Security Defense（网络空间安全防御国家重点实验室）； Institute of Information Engineering, CAS（信息工程研究所，中国科学院）； Beijing, China（北京，中国）

AI总结 MemLineage 是一种针对大型语言模型（LLM）代理记忆的防御机制，通过为每条记忆条目附加密码学来源信息和LLM推导链，确保记忆内容的可信性。该方法将记忆管理视为一种“保管链”问题，利用 Merkle 日志和有向无环图（DAG）记录记忆的生成过程，从而在防止恶意内容被用于敏感操作的同时，保留有用的回忆能力。实验表明，MemLineage 在多个记忆污染场景中表现出色，显著降低了误动作率，且性能开销极低。

Comments 24 pages, 8 figures. Rui Hou is the corresponding author

2605.14420 2026-05-15 cs.AI 版本更新

DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping

Pengyun Zhu, Yuqi Ren, Zhen Wang, Lei Yang, Deyi Xiong

发表机构 * TJUNLP Lab, School of Computer Science and Technology, Tianjin University, China（天津大学计算机科学与技术学院 TJUNLP 实验室，中国）

AI总结当前大型语言模型（LLMs）通常依赖于粗粒度的国家标签进行多元价值观对齐，但这种宏观层面的监督往往掩盖了国家内部的价值观异质性，导致对齐效果松散。为此，研究提出DVMap框架，通过多维人口统计约束识别具有可预测、高共识价值观偏好的群体，实现细粒度的多元价值观对齐。该方法引入人口统计原型提取策略和结构化思维链机制，并结合群体相对策略优化技术，有效提升了模型在跨人口统计、跨国家和跨价值观场景下的泛化能力与鲁棒性。

Comments Accepted to the Main Conference of ACL 2026

2605.14418 2026-05-15 cs.CR cs.AI 版本更新

The Great Pretender: A Stochasticity Problem in LLM Jailbreak

Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit

发表机构 * Core contributors（核心贡献者）

AI总结该论文指出，当前大语言模型（LLM）越狱攻击的评估中存在一个关键问题：攻击成功率（ASR）并不稳定，导致不同研究之间的结果难以比较。研究发现，即使某些攻击在封闭模型上表现出高ASR，但在实际测试中却只能以50%的连续成功率通过开放模型，揭示了越狱攻击生成和评估过程中随机性（stochasticity）的影响。为此，作者提出了一种新的评估框架CAS-eval和生成框架CAS-gen，有效提升了攻击的一致性和成功率，为越狱攻击的标准化评估提供了新方法。

2605.14416 2026-05-15 cs.AI 版本更新

A Unified Knowledge Embedded Reinforcement Learning-based Framework for Generalized Capacitated Vehicle Routing Problems

Wen Wang, Xiangchen Wu, Liang Wang, Hao Hu, Xianping Tao

发表机构 * Nanjing University（南京大学）

AI总结本文提出了一种基于知识嵌入的强化学习统一框架，用于解决具有容量限制的车辆路径问题（CVRP）。该框架结合了路线优先、聚类次优的启发式策略，并引入动态规划解决子问题，同时利用历史增强的上下文处理模块应对分解带来的部分可观测性问题。实验表明，该方法在多种CVRP变体中均能取得优于现有学习方法的解质量，且与经典启发式方法的差距更小，展现出良好的泛化能力。

2605.14415 2026-05-15 cs.SE cs.AI cs.CL 版本更新

SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades

Man Ho Lam, Chaozheng Wang, Hange Liu, Jingyu Xiao, Haau-sing Li, Jen-tse Huang, Terry Yue Zhuo, Michael R. Lyu

发表机构 * The Chinese University of Hong Kong（香港中文大学）； Independent（独立）； ELLIS ； Technical University of Darmstadt（达姆施塔特技术大学）； Johns Hopkins University（约翰霍普金斯大学）； Monash University（墨尔本大学）

AI总结 SWE-Chain 是一个用于评估代码智能体在连续版本升级场景下表现的基准，聚焦于包级别的连续发布升级任务。该研究设计了一种基于版本说明与代码差异对齐的合成流程，生成真实可行的升级需求，并构建了包含 9 个真实 Python 包、155 个版本转换和 1660 个升级要求的测试集。实验表明，当前主流代码智能体在连续升级任务中仍面临较大挑战，难以在不破坏现有功能的前提下完成准确的升级操作。

2605.14413 2026-05-15 cs.LG cs.AI 版本更新

MahaVar: OOD Detection via Class-wise Mahalanobis Distance Variance under Neural Collapse

Donghwan Kim, Hyunsoo Yoon

发表机构 * Department of Industrial Engineering（工业工程系）； Yonsei University（延世大学）

AI总结该论文提出了一种基于类内马哈拉诺比斯距离方差的新型分布外检测方法MahaVar。研究发现，对于分布内样本，类内马哈拉诺比斯距离呈现出明显的尖锐最小值结构，导致类间距离方差较大，而分布外样本则表现出较弱的结构特征和较小的距离方差。基于这一现象并结合神经崩溃理论，作者提出了MahaVar方法，在传统马哈拉诺比斯距离基础上引入类内距离方差作为判别依据，有效提升了分布外检测性能，在多个基准数据集上取得了当前最优结果。

Comments 29 pages, 8 figures

2605.14411 2026-05-15 cs.RO cs.AI 版本更新

Energy-Efficient Quadruped Locomotion with Compliant Feet

Pramod Pal, Shishir Kolathaya, Ashitava Ghosal

发表机构 * Department of Mechanical Engineering, Indian Institute of Science（印度科学研究院机械工程系）； Robert Bosch Centre for Cyber Physical Systems, Indian Institute of Science（印度科学研究院网络物理系统研究中心）； School of Engineering and Applied Science, Ahmedabad University（阿亨布尔大学工程与应用科学学院）

AI总结该研究探讨了具有柔顺足部的四足机器人能否在保证运动稳定性的同时提升运动效率。通过将足部柔顺性引入强化学习控制器，研究发现适中的足部刚度可以有效减少每米行走的机械能耗，实验表明相较于过于刚硬或过于柔软的足部，中间刚度的足部可使能耗降低约17%。这一结果表明，合理设计足部柔顺性有助于提高四足机器人的能量效率。

Comments 29 pages, 7 figures, supplemental videos link is mentioned in the paper

2605.14407 2026-05-15 cs.AI 版本更新

Metis AI: The Overlooked Middle Zone Between AI-Native and World-Movers

Xiang Li

发表机构 * Massachusetts General Hospital（麻省总医院）

AI总结本文探讨了人工智能在数字任务中常被忽视的“中间地带”——Metis AI，这类任务虽可在计算机上完成，但因涉及机构、社会和规范层面的复杂性，难以被算法可靠自动化。研究提出了Metis AI的五个结构性特征，并指出应对策略应是人类主导、AI辅助的“半人马架构”，而非单纯提升自动化水平。

2605.14392 2026-05-15 cs.AI 版本更新

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

Yucheng Shi, Zhenwen Liang, Kishan Panaganti, Dian Yu, Wenhao Yu, Haitao Mi

发表机构 * Tencent HY LLM（腾讯 HY LLM）

AI总结该研究提出了一种通过可验证环境合成实现自我进化的强化学习方法，使语言模型不仅能生成问题，还能构建用于训练自身的环境。核心方法是通过生成可执行的环境对象，实现问题采样、参考解计算与响应评分，并确保环境具有稳定的“解决-验证”不对称性，从而保证奖励信号的有效性。研究通过EvoEnv框架验证了该方法的有效性，在基准测试中实现了性能提升，表明模型的自我改进依赖于构建难度始终超越自身能力的环境，而非单纯增加合成数据量。

Comments Tech report, work in progress

2605.14389 2026-05-15 cs.AI cs.CL cs.LG 版本更新

Nexus : An Agentic Framework for Time Series Forecasting

Sarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, Nanyun Peng, Vishy Tirumalashetty, Chun-Liang Li, Rui Zhang, Jinsung Yoon, Tomas Pfister

发表机构 * Google（谷歌）； Pennsylvania State University（宾夕法尼亚州立大学）

AI总结时间序列预测不仅涉及数值推断，还需结合新闻、事件等非结构化文本信息进行推理。为弥补现有时间序列基础模型（TSFMs）对文本信号不敏感以及大语言模型（LLMs）在不同领域表现不一的问题，本文提出Nexus，一种多智能体预测框架，通过分解预测过程为宏观与微观时间波动识别、上下文信息整合等阶段，实现更灵活的预测。实验表明，Nexus在多个领域数据上优于现有先进模型，同时生成高质量的推理轨迹，揭示了预测背后的驱动因素，证明了现实中的时间序列预测是超越单纯序列建模的智能体推理问题。

Comments 30 Pages, 3 figures, 5 Tables

2605.14386 2026-05-15 cs.NE cs.AI 版本更新

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim

发表机构 * VIDRAFT Inc.（VIDRAFT公司）

AI总结本文提出了一种名为 Darwin Family 的框架，通过无训练的进化合并方法提升大语言模型的推理能力。该方法基于梯度-free的权重空间重组，引入了自适应合并基因、MRI-Trust融合机制以及跨架构映射器，实现了对现有模型检查点中潜在能力的重新组织与优化。实验表明，Darwin 模型在多个任务上超越了其原始训练模型，展示了无需额外训练即可提升模型推理性能的有效性。

Comments NeurIPS 2026 submission. 18 pages including appendix

2605.14379 2026-05-15 cs.LG cs.AI cs.GT cs.MA 版本更新

Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games

JB Lanier, Nathan Monette, Pierre Baldi, Roy Fox

AI总结在不完美信息博弈中，由于稀疏奖励和长期探索的困难，寻找大规模竞争性游戏（如《星际争霸》《Dota》等）的近似均衡计算上极具挑战。本文提出了一种多智能体初始状态采样策略——数据增强博弈起始（DAGS），通过从离线人类专家演示中采样中间状态作为强化学习的起始点，以加速策略梯度方法在零和两人博弈中的探索效率。实验表明，DAGS在固定计算预算下能显著降低博弈的可利用性，并揭示了初始状态分布增强可能导致均衡偏差的问题，同时提出了一种简单有效的缓解方法。

Comments 17 pages, 4 figures. JB Lanier and Nathan Monette contributed equally

2605.14374 2026-05-15 cs.LG cs.AI math.OC 版本更新

Optimal Pattern Detection Tree for Symbolic Rule-Based Classification

Young-Chae Hong, Yangho Chen

发表机构 * Amazon（亚马逊）

AI总结本文提出了一种基于混合整数规划的符号规则分类模型——最优模式检测树（OPDT），用于在二分类任务中发现数据中的单一最优模式。为融入先验知识和合规要求，作者进一步引入了分支结构约束（BSC）框架，使决策者能够将领域知识直接嵌入模型。该方法通过优化覆盖范围并最小化误分类的假阳性率，能够在合理时间内于中等规模数据集上发现具有最优性保证的隐藏模式。

Comments Published in Transactions on Machine Learning Research (TMLR). 26 pages, 4 figures. OpenReview URL: https://openreview.net/forum?id=RJ6eMDcDCv

Journal ref Transactions on Machine Learning Research (2026)

2605.14370 2026-05-15 physics.geo-ph cs.AI physics.comp-ph 版本更新

Deciphering Neural Reparameterized Full-Waveform Inversion with Neural Sensitivity Kernel and Wave Tangent Kernel

Ruihua Chen, Yisi Luo, Bangyu Wu, Xile Zhao, Deyu Meng

发表机构 * School of Mathematics and Statistics, Xi’an Jiaotong University（西安交通大学数学与统计学院）； School of Mathematical Sciences, University of Electronic Science and Technology of China（电子科技大学数学科学学院）

AI总结本文研究了神经重参数化全波形反演（NeurFWI）的收敛机制，提出了神经灵敏度核（NSK）和波切线核（WTK），揭示了神经表示如何通过调节原始灵敏度核和波切线核的特征结构，影响反演过程中的谱滤波效应、梯度波数调制和波频偏差等关键行为。基于这些理论分析，作者提出了改进的NeurFWI方法，提升了反演性能与效率，并在地震勘探和医学成像中验证了其有效性。

2605.14368 2026-05-15 cs.CL cs.AI 版本更新

Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

Injin Kong, Hyoungjoon Lee, Yohan Jo

发表机构 * Graduate School of Data Science, Seoul National University（首尔国立大学数据科学研究生院）； Department of Biosystems & Biomaterials Science and Engineering, Seoul National University（首尔国立大学生物系统与生物材料科学与工程系）

AI总结本文研究了如何在预训练语言模型中有效引入扩散模型，提出了一种基于几何引导的扩散-变压器混合模型DiHAL。该方法通过几何特征评估各层的适合性，选择合适的隐藏状态接口，并用扩散桥替换下层变压器结构，保留上层结构和语言模型头部。实验表明，基于几何评分的隐藏状态恢复方法在保持相同训练预算的情况下，优于传统的连续扩散方法，展示了在语言模型中进行扩散替换的可行性。

2605.14365 2026-05-15 cs.LG cs.AI 版本更新

LoMETab: Beyond Rank-1 Ensembles for Tabular Deep Learning

Changryeol Choi, Hyewon Park, Yujin Kwon, Gowun Jeong

发表机构 * CJ Logistics（CJ物流）

AI总结在表格深度学习中，主流方法的性能趋于接近，难以形成明显优劣之分。为此，本文提出 LoMETab，一种基于秩-$r$ 的隐式集成模型，通过引入可调节的秩和初始化尺度，增强模型的多样性与表达能力。实验表明，LoMETab 能有效提升模型间的预测差异性，并在分类和回归任务中展现出良好的控制能力与性能表现。

2605.14362 2026-05-15 cs.SE cs.AI 版本更新

Correctness-Aware Repository Filtering Under Maximum Effective Context Window Constraints

Shweta Mishra

发表机构 * Independent Researcher（独立研究者）

AI总结该研究针对大语言模型在开发工具中面临的上下文窗口效率问题，提出了一种基于文件大小的预执行过滤框架，用于在代码仓库扫描前高效剔除超出上下文限制的非代码文件。该方法仅依赖操作系统级别的元数据，具有极低的计算开销，能够在不进行索引和语义分析的情况下实现快速过滤。实验表明，该方法在多个开源仓库中显著减少了输入令牌数量，同时提升了代码生成的准确性并降低了幻觉发生率。

2605.14359 2026-05-15 cs.LG cs.AI 版本更新

RQ-MoE: Residual Quantization via Mixture of Experts for Efficient Input-Dependent Vector Compression

Zhengjia Zhong, Shuyan Ke, Zaizhou Lin, Jiaqi Song, Hongyi Lan, Hui Li

发表机构 * Key Laboratory of Multimedia Trusted Perception（多媒体可信感知关键实验室）； Efficient Computing, Ministry of Education of China, Xiamen University, Xiamen, China（高效计算，中华人民共和国教育部，厦门大学，厦门，中国）

AI总结该论文提出了一种名为RQ-MoE的残差量化框架，通过结合专家混合模型与双流量化机制，实现了针对输入数据动态调整的高效向量压缩。该方法解决了现有动态量化方法在解码过程中存在的瓶颈问题，支持并行解码并提升了表达能力。实验表明，RQ-MoE在重建与检索任务中达到了当前最优或接近最优的性能，同时解码速度比以往方法快6到14倍。

Comments To appear at ICML 2026

2605.14358 2026-05-15 cs.AI cs.LG 版本更新

Uncovering the Representation Geometry of Minimal Cores in Overcomplete Reasoning Traces

Sanjoy Chowdhury, Dinesh Manocha

发表机构 * University of Maryland, College Park, USA（马里兰大学学院公园分校）

AI总结该研究探讨了语言模型在生成长链推理过程时，其中有多少步骤对于最终预测是必要的。通过定义“最小核心”——即能保持最终答案或预测分布的最小步骤子集，并引入压缩比、冗余度、步骤必要性等指标，研究发现推理轨迹普遍存在冗余，平均有46%的步骤可以移除而不影响答案，且必要性高度集中于少数几步。研究还表明，最小核心能更清晰地揭示推理的几何结构，并在不同模型间具有较好的迁移能力，为理解语言模型推理的本质提供了新视角。

2605.14331 2026-05-15 eess.SP cs.AI cs.ET cs.IT cs.LG math.IT 版本更新

Analog RF Computing: A New Paradigm for Energy-Efficient Edge AI Over MU-MIMO Systems

Wentao Yu, Vincent W. S. Wong

发表机构 * Department of Electrical and Computer Engineering, The University of British Columbia（电气与计算机工程系，不列颠哥伦比亚大学）

AI总结本文提出了一种基于模拟射频（RF）计算的新范式，用于在多用户多输入多输出（MU-MIMO）无线系统中实现高效节能的边缘人工智能推理。该方法通过基站广播编码的神经网络权重波形，客户端利用无源混频器进行本地输入编码波形的乘法运算，从而在无线接收端高效完成矩阵-向量乘法操作。研究设计了一种面向计算的物理层框架，优化了计算精度与能耗之间的平衡，并提出了一种低复杂度算法解决非凸优化问题，实验表明该方法相比传统数字计算可将客户端能耗降低近两个数量级，为边缘推理提供了高效的无线计算新途径。

Comments 13 pages, 6 figures, 2 tables. This paper proposes analog RF computing as a new paradigm for energy-efficient edge inference over wireless networks and studies the corresponding physical layer design framework

详情

英文摘要

Modern edge devices increasingly rely on neural networks for intelligent applications. However, conventional digital computing-based edge inference requires substantial memory and energy consumption. In analog radio frequency (RF) computing, a base station (BS) encodes the weights of the neural networks and broadcasts the RF waveforms to the clients. Each client reuses its passive mixer to multiply the received weight-encoded waveform with a locally generated input-encoded waveform. This enables wireless receivers to perform the matrix-vector multiplications (MVMs) that account for most of the computation burden in edge inference with ultra-low energy consumption. Unlike conventional downlink transmissions which are optimized for communications, analog RF computing requires a computing-centric physical layer that controls both the analog MVM accuracy and the energy consumption for inference. Motivated by this, in this paper, we propose a physical layer design framework for analog RF computing in MU-MIMO wireless systems. We derive tractable models for computing accuracy and energy consumption for inference, formulate a joint BS beamforming and client-side scaling problem subject to computing accuracy, transmit power, and hardware constraints, and develop a low-complexity algorithm to solve the non-convex problem. The proposed design provides client- and layer-specific accuracy control for both uniform- and mixed-precision inference. Simulations under 3GPP specifications show that analog RF computing can significantly reduce client-side energy consumption by nearly two orders of magnitude compared to digital computing, while mixed-precision inference requires even lower energy consumption than uniform-precision inference. Overall, these results establish analog RF computing over wireless networks as a promising paradigm for energy-efficient edge inference.

URL PDF HTML ☆

赞 0 踩 0

2605.14327 2026-05-15 cs.LG cs.AI 版本更新

AIM-DDI: A Model-Agnostic Multimodal Integration Module for Drug-Drug Interaction Prediction

Yerin Park, Sangseon Lee

发表机构 * Department of Artificial Intelligence, Inha University（人工智能系，Inha大学）

AI总结药物-药物相互作用（DDI）预测在计算生物医学中具有重要意义，但如何对训练过程中未见的药物进行准确预测仍是一个关键挑战。本文提出了一种与模型无关的多模态集成模块AIM-DDI，它将结构、化学和语义等异构药物信息映射到共享的潜在空间中，并通过统一的融合模块建模模态间依赖关系，从而实现跨不同DDI预测架构的通用集成。实验表明，AIM-DDI在多种DDI模型和DrugBank数据集上均能有效提升预测性能，尤其在两个药物均未在训练中出现的最困难场景下表现突出。

2605.14323 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Dynamic Latent Routing

Fangyuan Yu, Xin Su, Amir Abdullah

发表机构 * Thoughtworks AI Labs (TAILS)（Thoughtworks AI实验室（TAILS））

AI总结本文研究了在时间变化奖励函数的马尔可夫决策过程（MDP）中，子策略的时间拼接问题。作者提出了通用迪杰斯特拉搜索（GDS），并证明通过时间组合中间最优子策略可以恢复全局最优目标达成策略。基于GDS的“搜索、选择、更新”原则，作者进一步提出了动态潜在路由（DLR）方法，该方法在单次训练阶段联合学习离散潜在编码、路由策略和模型参数。实验表明，在低数据微调场景下，DLR在多个数据集和模型上表现优异，优于传统的监督微调方法。

2605.14318 2026-05-15 cs.AI cs.LG 版本更新

Semantic Feature Segmentation for Interpretable Predictive Maintenance in Complex Systems

Emilio Mastriani, Alessandro Costa, Federico Incardona, Kevin Munari, Sebastiano Spinello

发表机构 * INAF, Osservatorio Astrofisico di Catania（意大利国家天文研究所，卡塔尼亚天文台）

AI总结本文研究了复杂系统中可解释的预测性维护问题，针对监测变量异构性和冗余性导致的故障信息模糊和模型可解释性下降的问题，提出了一种语义特征分割框架。该方法将监测特征空间分解为保留主要预测信息的规范分量和包含结构边缘信号的残差分量，并基于领域知识定义功能分组以反映系统运行机制。实验表明，规范分量在预测风险和结构稳定性方面均优于残差分量和传统方法，实现了预测性能与语义可解释性的兼顾。

Comments 18 pages, 7 figures. Under review at Neural Computing and Applications. Keywords: semantic segmentation, change point detection, fault anticipation

详情

英文摘要

Predictive maintenance in complex systems is often complicated by the heterogeneity and redundancy of monitored variables,which can obscure fault-relevant information and reduce model interpretability. This work proposes a semantic feature segmentation framework that decomposes the monitored feature space into a canonical component,expected to retain the dominant predictive information, and a residual component containing structurally peripheral signals. The segmentation is defined through domain informed criteria and sets up monitoring variables into functional groups reflecting operational mechanisms such as throughput,latency,pressure,network activity,and structural state. To evaluate the effectiveness of this decomposition, we adopt a predictive perspective in which expected predictive risk is used as an operational proxy for task-relevant information. Experimental results obtained through time-aware cross-validation show that the canonical space consistently achieves lower predictive risk than the residual space across multiple temporal configurations, indicating that the semantic segmentation concentrates the most relevant information for fault anticipation. In addition, the canonical segments exhibit significantly stronger intra-segment coherence than inter-segment dependence, and this structural organization remains stable after redundancy reduction. When compared with the full feature space and with a Principal Component Analysis (PCA) representation, the canonical space carries out comparable predictive performance and furthermore preserves the semantic meaning of the original variables. These findings suggest that semantic feature segmentation provides an interpretable and information-preserving decomposition of monitoring signals, enabling competitive predictive performance without sacrificing the operational interpretability required in predictive maintenance applications.

URL PDF HTML ☆

赞 0 踩 0

2605.14304 2026-05-15 cs.LG cs.AI 版本更新

Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry

Zuyuan Zhang, Carlee Joe-Wong, Tian Lan

发表机构 * The George Washington University（乔治·华盛顿大学）； Carnegie Mellon University（卡内基梅隆大学）

AI总结该研究提出了一种名为矩阵空间强化学习（MSRL）的新方法，旨在通过复用已有轨迹片段中的局部转移几何结构，提升强化学习中的组合泛化能力。MSRL 使用正定矩阵描述符来捕捉轨迹片段的一阶和二阶统计特性，从而在抽象的矩阵空间中实现代数组合与知识迁移。实验表明，该方法在有限预算下取得了优于现有方法的性能，展示了其在跨任务学习中的有效性。

2605.14297 2026-05-15 cs.LG cs.AI math.OC stat.ML 版本更新

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients

Matias Alvo, Daniel Russo, Yash Kanoria

发表机构 * Graduate School of Business Columbia University（哥伦比亚大学商学院）

AI总结本文研究了在混合离散-连续动作空间中的强化学习问题，这类问题常见于机器人控制和优化领域。为了解决传统策略梯度方法在高维空间中梯度质量差的问题，作者提出了混合策略优化（HPO）方法，通过结合路径梯度和得分函数梯度，实现无偏混合梯度估计，从而有效应对离散动作和非光滑动态带来的挑战。实验表明，HPO在库存控制和切换线性二次调节器等任务中显著优于PPO算法，且在连续动作维度增加时优势更加明显。

2605.14294 2026-05-15 cs.AI cs.LG 版本更新

Precise Verification of Transformers through ReLU-Catalyzed Abstraction Refinement

Hengjie Liu, Zhenya Zhang, Jianjun Zhao

发表机构 * Kyushu University（九州大学）； National Institute of Informatics（国家信息研究所）

AI总结随着Transformer模型在安全关键领域的广泛应用，其形式化验证变得尤为重要。与传统神经网络相比，Transformer的推理过程涉及复杂的计算，如自注意力层中的点积操作，使得验证极具挑战性。本文提出了一种基于ReLU催化的抽象细化方法，通过精确表示点积的非线性边界，结合凸松弛技术，提升了验证精度，并在两种经典验证方法的基础上扩展出适用于Transformer的高效且精确的验证框架，实验表明该方法在保持较高效率的同时显著提升了验证精度。

Comments 32 pages, 6 figures, the full version of the paper accepted by CAV 2026

2605.14291 2026-05-15 cs.CR cs.AI cs.CL cs.CV cs.LG 版本更新

To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model

Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu

发表机构 * School of Computing ； Augmented Intelligence, Arizona State University, Tempe, AZ, USA ； Department of Computer Science ； Engineering, Texas A\&M University, College Station, TX, USA

AI总结随着大型视觉-语言模型（LVLMs）的快速发展，未经授权的数据抓取和微调行为带来了严重的版权和隐私风险。为此，本文提出MMGuard，通过注入人类不可感知的扰动生成“不可学习”的示例，主动防御数据被用于未经授权的LVLM微调。该方法利用模型的学习动态，制造优化捷径，使模型在训练时过度拟合噪声，从而在推理时性能下降。此外，MMGuard引入跨模态关联破坏策略，增强防御效果，并在多种威胁模型下展现出高效、隐蔽且鲁棒的保护能力。

2605.14290 2026-05-15 cs.CR cs.AI cs.CL cs.SE 版本更新

Web Agents Should Adopt the Plan-Then-Execute Paradigm

Julien Piet, Annabella Chow, Yiwei Hou, Muxi Lyu, Sylvie Venuto, Jinhao Zhu, Raluca Ada Popa, David Wagner

发表机构 * UC Berkeley（加州大学伯克利分校）

AI总结本文指出，当前基于ReAct架构的大型语言模型代理在处理网页任务时存在安全隐患，因为其在决策过程中直接使用未验证的网页内容，容易受到提示注入攻击。作者主张网页代理应采用“先规划后执行”的范式，即在观察网页内容前制定任务特定的执行计划，从而隔离不可信数据对控制流的影响。研究分析了WebArena基准，发现大多数任务可通过纯程序化规划完成，而无需运行时调用LLM子程序，并指出实现该范式的关键在于构建类型化、可审计的网页API接口，而非改进模型本身。

2605.14289 2026-05-15 cs.LG cs.AI cs.CL cs.CR 版本更新

MetaMoE: Diversity-Aware Proxy Selection for Privacy-Preserving Mixture-of-Experts Unification

Weisen Jiang, Shuhao Chen, Sinno Jialin Pan

AI总结本文提出了一种隐私保护的混合专家（MoE）统一框架MetaMoE，旨在解决分布式数据环境下专家模型无法共享训练数据的问题。该方法通过选择与客户端领域相关且多样化的公共代理数据，替代无法获取的私有数据，从而有效指导路由器学习并提升专家协调能力。实验表明，MetaMoE在计算机视觉和自然语言处理任务中优于现有的隐私保护MoE统一方法。

Comments Accepted by ICML 2026

2605.14283 2026-05-15 cs.GT cs.AI cs.CR 版本更新

Watermarking Game-Playing Agents in Perfect-Information Extensive-Form Games

Juho Kim, Fei Fang, Tuomas Sandholm

发表机构 * Strategic Machine, Inc.（战略机器公司）； Strategy Robot, Inc.（策略机器人公司）； Optimized Markets, Inc.（优化市场公司）

AI总结本文研究了在完全信息的扩展式博弈中对博弈策略进行水印的技术，旨在检测游戏代理是否未经授权地使用了AI工具。作者借鉴了大型语言模型的KGW水印方法，提出了一种适用于博弈代理的水印方案，并通过统计检验实现水印的检测。实验表明，水印对策略质量的影响可以忽略不计，且仅需少量对局即可有效检测水印。

2605.14277 2026-05-15 cs.AI cs.GT 版本更新

Parallelizing Counterfactual Regret Minimization

Juho Kim, Tuomas Sandholm

发表机构 * CMU Strategic Machine, Inc.（CMU战略机器公司）； Strategy Robot, Inc.（策略机器人公司）； Optimized Markets, Inc.（优化市场公司）

AI总结本文研究了如何将反事实遗憾最小化（CFR）算法并行化，以加速求解大规模不完美信息博弈。作者将CFR重新表述为一系列线性代数操作，从而能够利用现有的并行计算技术提升其效率。该方法适用于多种CFR变体，如CFR+、折扣CFR和预测型CFR。实验表明，基于GPU的实现比CPU上的现有实现快达四千倍。

Comments This paper contains and extends ideas that were originally in arxiv:2408.14778

2605.14269 2026-05-15 cs.CV cs.AI 版本更新

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal

发表机构 * UNC Chapel Hill（UNC夏洛特希尔大学）； FieldAI ； NTU Singapore（新加坡国立大学）； AI2 ； Johns Hopkins University（约翰霍普金斯大学）

AI总结生成真实的人类运动是视频生成中的核心挑战之一。为了解决现有奖励信号无法准确评估运动真实性的难题，本文提出PhyMotion，一种基于物理模拟的结构化运动奖励机制，通过评估运动的运动学合理性、接触与平衡一致性以及动力学可行性等多个维度，实现对生成视频中人体运动质量的精细评价。实验表明，PhyMotion相比现有方法能更准确地反映人类判断，并在基于强化学习的后训练中显著提升了运动真实性和生成质量。

Comments First two authors contributed equally, website: https://phy-motion.github.io/

2605.14267 2026-05-15 cs.CV cs.AI 版本更新

Image Restoration via Diffusion Models with Dynamic Resolution

Yang Zheng, Wen Li, Zhaoqiang Liu

发表机构 * School of Computer Science and Engineering, University of Electronic Science and Technology of China（电子科技大学计算机科学与工程学院）

AI总结该研究针对扩散模型在图像修复任务中计算开销大的问题，提出了一种基于动态分辨率扩散模型的图像修复方法。通过将数据投影到低维子空间，有效降低了计算负担，并在原有像素空间方法的基础上改进，提出了SubDPS和SubDAPS两种新方法，其中SubDAPS++进一步提升了修复效率和质量。实验表明，该方法在多个数据集和任务上优于现有基于扩散模型的图像修复方法。

Comments Accepted by ICML 2026

2605.14266 2026-05-15 cs.AI cs.CY 版本更新

Agentic AI Ecosystems in Higher Education: A Perspective on AI Agents to Emerging Inclusive, Agentic Multi-Agent AI Framework for Learning, Teaching and Institutional Intelligence

Vidya K Sudarshan, Anushka Sisodia, Reshma A Ramachandra, Sia Batra, Josephine Chong Leng Leng

发表机构 * College of Computing and Data Science, Nanyang Technological University, NTU, Singapore（南洋理工大学计算机与数据科学学院）； DeepMed Ptd Ltd, India（印度DeepMed公司）

AI总结本文探讨了人工智能代理在高等教育中的应用前景，提出构建一个集成化的多智能体AI框架，以支持教学、学习和机构管理的协同运作。当前AI工具多为单一任务导向且缺乏整合，难以满足教育生态系统复杂需求，本文通过文献分析指出现有研究在跨功能整合与包容性设计方面的不足，并强调构建协调、适应性强的多智能体系统对于实现公平、包容教育的重要意义。

Comments 50 pages, 14 figures, 3 tables

详情

英文摘要

Integration of artificial intelligent (AI) agents in higher education is transforming teaching, learning and administrative processes. Although existing AI agents effectively support individual tasks, their implementation remains fragmented and inefficient for handling the complexity of educational institutions. This highlights a significant research gap: the lack of integrated eco-system-level agentic multi-agent AI platform capable of coordinated planning, reasoning, and adaptive decision-making across multiple educational functions. This paper presents a forward-looking perspective on agentic multi-agent AI platform in higher education, consisting interconnected autonomous, goal driven agents that support learning, teaching, and institutional operations. It addresses timely and critical questions: Can agentic AI represent the next generation of intelligent systems in tertiary education? Can they collectively support seamless coordinated operations across teaching, learning and administrative support? To what extent can such systems foster inclusive and equitable learning for diverse learners with special educational needs? To ground this perspective, a thematic analysis of existing literature identifies four dominant themes: task-specific fragmented AI tools, the transition from single-agent to multi-agent systems, limited cross-functional integration, and insufficient focus on inclusivity and accessibility. Findings reveal a clear gap between current AI implementations and the needs of holistic, learner-centered educational ecosystem. The paper synthesizes challenges and outlines future research directions for scalable human-aligned, and inclusive agentic AI platform. The significant contribution is the incorporation of inclusive learning perspectives, highlighting how coordinated agentic multi-agent platform can support diverse learners through adaptive, multimodal interventions.

URL PDF HTML ☆

赞 0 踩 0

2605.14261 2026-05-15 cs.AI cs.GT 版本更新

Heuristic Pathologies and Further Variance Reduction via Uncertainty Propagation in the AIVAT Family of Techniques

Juho Kim, Tuomas Sandholm

发表机构 * CMU Strategic Machine, Inc.（CMU战略机器公司）； Strategy Robot, Inc.（策略机器人公司）； Optimized Markets, Inc.（优化市场公司）

AI总结本文研究了在多智能体环境中如何在样本量有限或试验成本高昂的情况下评估智能体的性能，提出了AIVAT方法族以降低估计方差。文章指出，AIVAT中的启发式价值函数选择和不确定性处理缺乏指导，进而揭示了该方法在梯度下降应用下的潜在问题，并提出应在观察评估数据前固定启发式函数。此外，作者展示了如何传播启发式不确定性以进一步降低方差，尽管这可能牺牲无偏性。实验表明，该方法在扑克数据集上有效减少了达到统计结论所需的样本数量。

2605.14258 2026-05-15 cs.LG cs.AI 版本更新

Dynamics of the Transformer Residual Stream: Coupling Spectral Geometry to Network Topology

Jesseba Fernando, Grigori Guitchounts

发表机构 * Network Science Institute, Northeastern University（网络科学研究所，东北大学）； Flagship Pioneering（先锋计划）

AI总结本文研究了大型语言模型中残差流的动态特性，揭示了训练过程中谱几何与网络拓扑之间的耦合关系。通过全雅可比矩阵的特征分解，作者发现训练使得模型深度方向上形成单调的谱梯度，并伴随着维度压缩现象，这些特性是学习得到的而非由模型结构决定。研究进一步表明，网络中图社区的拓扑位置决定了雅可比矩阵对其扰动的放大或抑制作用，这一关系在模型初始化时并不存在。

2605.14252 2026-05-15 cs.LG cs.AI 版本更新

Not All Timesteps Matter Equally: Selective Alignment Knowledge Distillation for Spiking Neural Networks

Kai Sun, Peibo Duan, Yongsheng Huang, Guowei Zhang, Benjamin Smith, Nanxu Gong, Levin Kuhlmann

发表机构 * Faculty of Information Technolody, Monash University, Australia（墨尔本大学信息科技学院，澳大利亚）； School of Software, Northeastern University, China（东北大学软件学院，中国）； Department of Medicine, National University of Singapore, Singapore（新加坡国立大学医学部，新加坡）

AI总结本文研究了脉冲神经网络（SNN）与人工神经网络（ANN）之间的性能差距问题，提出了一种新的知识蒸馏方法——选择性对齐知识蒸馏（SeAl-KD）。该方法突破了传统方法对所有时间步进行统一对齐的假设，通过识别错误时间步并针对性地进行校正，同时保留有用的时序动态，从而更有效地提升SNN的性能。实验表明，该方法在静态图像和神经形态事件数据集上均优于现有蒸馏方法。

2605.14246 2026-05-15 cs.LG cs.AI cs.SY eess.SY 版本更新

Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability

Yushen Liu, Yin-Jen Chen, Ziyi Chen, Tao Wang, Heng Huang, Xugui Zhou, Yanfu Zhang

发表机构 * University of Virginia（弗吉尼亚大学）； Google（谷歌）； University of Maryland, College Park（马里兰大学 College Park 分校）； Stanford University（斯坦福大学）； Louisiana State University（路易斯安那州立大学）； College of William and Mary（威廉与玛丽学院）

AI总结该研究针对部分可观测环境下安全关键控制问题，提出了一种基于动作条件风险门控的强化学习方法，用于在不完全观测情况下平衡任务性能与安全风险。方法通过构建有限历史的紧凑代理状态，并学习动作条件的短期安全违规预测，将预测风险用于价值学习中的风险惩罚和决策时的风险门控，从而在保证安全的同时提升控制性能。实验表明，该方法在血糖调节和安全导航等任务中相比传统方法具有更优的奖励-成本平衡和运行效率。

2605.14242 2026-05-15 cs.LG cs.AI 版本更新

Artificial Intelligence-Assistant Cardiotocography: Unified Model for Signal Reconstruction, Fetal Heart Rate Analysis, and Variability Assessment

Xiaohua Wang, Kai Yu, XuXiao Liang, Liang Wang, Chao Han

发表机构 * Artificial Intelligence Research Center, Bengbu Medical University（蚌埠医科大学人工智能研究中心）； CHARMMIRAEL Biotech Co., Ltd（CHARMMIRAEL生物科技有限公司）

AI总结该研究提出了一种基于人工智能的卡iotocography（CTG）模型，用于胎儿心率信号重建、心率分析及变异性评估。该模型通过大规模未标注数据预训练，并结合专家审核数据进行微调，有效提升了信号重建精度和分析可靠性。研究引入了交叠标签（IOL）方法验证胎儿心率，模型在检测关键心率减速和加速方面表现出高灵敏度和特异性，并在临床指标评估中取得了优异的AUC成绩。

2605.14237 2026-05-15 cs.AI 版本更新

Good to Go: The LOOP Skill Engine That Hits 99% Success and Slashes Token Usage by 99% via One-Shot Recording and Deterministic Replay

Xiaohua Wang, Kai Yu, XuXiao Liang, Liang Wang, Chao Han

发表机构 * Artificial Intelligence Research Center, Bengbu Medical University（蚌埠医科大学人工智能研究中心）； CHARMMIRAEL Biotech Co., Ltd（CHARMMIRAEL生物科技有限公司）

AI总结本文提出了一种名为LOOP SKILL ENGINE的系统，旨在解决AI代理执行重复性任务时的高失败率和高计算成本问题。该系统通过一次性的任务执行记录和确定性回放机制，实现了99%的任务成功率，并将令牌使用量减少了99%。其核心方法是将首次运行中记录的工具调用轨迹转化为参数化的确定性执行计划，后续任务直接回放该计划，无需再次调用大语言模型，从而大幅降低开销并保证执行的可预测性。

Comments 8 pages, 5 tables

2605.14231 2026-05-15 cs.LG cs.AI cs.SD 版本更新

AudioMosaic: Contrastive Masked Audio Representation Learning

Hanxun Huang, Qizhou Wang, Xingjun Ma, Cihang Xie, Christopher Leckie, Sarah Erfani

发表机构 * School of Computing and Information Systems, The University of Melbourne, Australia（墨尔本大学计算机与信息系统学院）； Baskin School of Engineering, University of California, Santa Cruz, USA（加州大学圣克鲁兹分校工程学院）； Institute of Trustworthy Embodied AI, Fudan University, China（复旦大学可信具身人工智能研究所）

AI总结本文提出了一种基于对比学习的音频编码器 AudioMosaic，用于通用音频理解任务。该方法通过结构化时频掩码生成正样本对，降低内存消耗并支持高效的大批量训练。与生成式方法相比，AudioMosaic 能够学习更具判别性的语句级表示，在不同数据集、领域和声学条件下表现出优异的迁移能力，并在多个标准音频基准测试中取得了最先进的性能。

Comments ICML2026

2605.14224 2026-05-15 math.NA cs.AI cs.NA math.DS math.FA 版本更新

Wavelet-Based Observables for Koopman Analysis: An Extended Dynamic Mode Decomposition Framework

Cankat Tilki, Serkan Gugercin

发表机构 * Department of Mathematics, Virginia Tech（弗吉尼亚理工大学数学系）

AI总结本文提出了一种基于小波变换的Koopman算子分析方法，通过引入小波基观测函数，证明其在特定Banach空间下是Koopman半群的特征函数。在此基础上，构建了Koopman半群及其预解算子的闭式表达，并结合扩展动态模态分解（EDMD）提出了一种新的小波动态模态分解算法（cWDMD），用于数值近似Koopman算子的作用。该方法在两个数值例子中得到了验证，展示了其理论有效性与应用潜力。

2605.14220 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Diagnosing Training Inference Mismatch in LLM Reinforcement Learning

Tianle Zhong, Neiwen Ling, Yifan Pi, Zijun Wei, Tianshu Yu, Geoffrey Fox, Peng Wu, Xiao Yu

发表机构 * ByteDance（字节跳动）； The University of Virginia（弗吉尼亚大学）

AI总结本文研究了大语言模型强化学习中训练与推理阶段概率分布不一致的问题，即训练-推理不匹配（TIM）。作者提出了一种零不匹配诊断设置（VeXact），用于隔离TIM的影响，并发现即使微小的标记级数值差异也可能导致训练崩溃。研究进一步表明TIM改变了优化问题的本质，并提出了一些缓解TIM的方法，强调TIM是影响LLM强化学习稳定性的关键系统性因素，而非单纯的数值噪声。

2605.14218 2026-05-15 cs.AI physics.soc-ph 版本更新

Fusion-fission forecasts when AI will shift to undesirable behavior

Neil F. Johnson, Frank Yingjie Huo

发表机构 * Physics Department, The George Washington University（乔治华盛顿大学物理系）

AI总结本文研究了类似ChatGPT的AI系统在使用过程中行为从有益转向有害的转变问题，并提出了一种基于融合-裂变群体动力学的预测方法。该方法通过分析对话历史与有益或有害行为之间的竞争动态，能够在不依赖具体模型或随机采样的情况下，提前预测AI行为转变的时间点。研究通过多项独立测试验证了该方法的有效性，表明其具有广泛适用性和较高的预测准确性。

2605.14217 2026-05-15 cs.LG cs.AI cs.CL cs.SY eess.SY 版本更新

PreFT: Prefill-only finetuning for efficient inference

Andrew Lanpouthakoun, Aryaman Arora, Zhengxuan Wu, Dhruv Pai, Ben Keigwin, Dan Jurafsky, Christopher Potts

发表机构 * Stanford University（斯坦福大学）； Tilde Research（Tilde研究）

AI总结本文提出了一种名为 PreFT 的高效微调方法，专注于在推理阶段仅对预填充（prefill）阶段应用适配器，从而提升多用户场景下的服务吞吐量。相比传统的参数高效微调方法（PEFT），PreFT 在保持性能的同时显著提高了吞吐效率，尤其在处理大量适配器时表现更优。实验表明，PreFT 在监督微调和强化学习任务中能够接近甚至达到传统 PEFT 的性能，验证了其在个性化服务场景中更具优势的精度-吞吐量权衡。

2605.14215 2026-05-15 cs.AI cs.LG q-bio.QM 版本更新

GenCircuit-RL: Reinforcement Learning from Hierarchical Verification for Genetic Circuit Design

Noah Flynn

发表机构 * University of California, Berkeley, CA, USA（加州大学伯克利分校）

AI总结该研究针对合成生物学中遗传电路设计仍依赖专家经验的问题，提出了一种基于强化学习的框架GenCircuit-RL，通过分层验证奖励机制将电路正确性分解为五个层次，并结合四阶段课程学习逐步提升模型能力。研究还构建了一个包含4753个电路的基准数据集SynBio-Reason，用于评估模型在代码修复、从头设计等任务中的表现。实验表明，分层验证和课程学习显著提升了模型在功能推理任务中的成功率，并能生成拓扑正确、泛化性强的遗传电路设计。

Comments Link: https://icml.cc/virtual/2026/poster/61789

2605.14212 2026-05-15 cs.AI 版本更新

MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

Yaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang

发表机构 * Oregon State University（俄勒冈州立大学）； UCSD（加州大学圣迭戈分校）； Amazon AGI（亚马逊人工智能实验室）； Pennsylvania State University（宾夕法尼亚州立大学）； AG2AI, Inc.（AG2AI公司）

AI总结本文提出了一种端到端的强化学习框架 MetaAgent-X，旨在突破现有自动多智能体系统（MAS）在设计与执行解耦的限制，实现自设计与自执行的智能体流程生成。该方法通过联合优化设计与执行过程，引入分层 rollout 与阶段性共进化策略，提升了训练稳定性与系统适应性。实验表明，MetaAgent-X 在多个基准上显著优于现有方法，验证了端到端训练自动 MAS 的有效性与实用性。

2605.14210 2026-05-15 cs.LG cs.AI 版本更新

Towards Fine-Grained and Verifiable Concept Bottleneck Models

Yingying Fang, Haijie Xu, Shuang Wu, Mariathasan Anish, Guang Yang

发表机构 * Bioengineering Department（生物工程部门）； Imperial-X, Imperial College London, London, UK（帝国理工学院伦敦校区）； Thoughtworks AI Labs, Singapore（Thoughtworks AI实验室，新加坡）

AI总结该论文提出了一种细粒度且可验证的概念瓶颈模型（CBM）框架，旨在解决现有CBM在验证预测概念是否对应正确视觉证据方面的不足。通过将每个概念与局部视觉证据关联，该方法支持直接检查概念的编码位置和方式，从而提升模型的可解释性和可靠性。实验表明，该方法在保持预测性能的同时显著提高了透明度，并建立了概念层面的人机交互机制，为构建更可靠和临床可用的概念驱动学习系统奠定了基础。

Comments 10 pages, 4 figures

2605.14202 2026-05-15 cs.SE cs.AI 版本更新

LLM-Based Robustness Testing of Microservice Applications: An Empirical Study

Hrushitha Goud Tigulla, Marco Vieira

发表机构 * College of Computing（计算学院）； Informatics University of North Carolina at Charlotte（北卡罗来纳大学夏洛特分校信息学院）； Charlotte, USA（美国夏洛特）

AI总结本文通过实证研究探讨了基于大语言模型（LLM）的微服务应用鲁棒性测试方法。研究针对不同架构的微服务系统，应用七种提示策略和三种开源LLM生成测试用例，发现提示策略对测试多样性的影响比模型规模更大。研究提出了两种新策略——Guided和GuidedFewShot，结合领域知识提升测试覆盖效果，其中GuidedFewShot在两个系统中均实现了较高的失败模式覆盖率，且保持了较低的模型间相似性。实验表明，仅依赖分类规则不足以引导LLM生成有效测试，具体示例对模型理解输入突变至关重要。

2605.14192 2026-05-15 cs.CL cs.AI 版本更新

Why Retrieval-Augmented Generation Fails: A Graph Perspective

Kai Guo, Xinnan Dai, Zhibo Zhang, Nuohan Lin, Shenglai Zeng, Jie Ren, Haoyu Han, Jiliang Tang

发表机构 * Michigan State University（密歇根州立大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结本文从图的角度分析了检索增强生成（RAG）为何在许多情况下仍会产生错误答案，揭示了检索信息如何影响模型生成过程。通过构建归因图，研究者发现了正确与错误预测在信息流动结构上的显著差异，并基于这些发现提出了一个基于图的错误检测框架，进一步展示了如何通过干预归因图结构来提升RAG的生成质量。

2605.13789 2026-05-15 cs.LG cs.AI q-bio.BM 版本更新

ENSEMBITS: an alphabet of protein conformational ensembles

Kaiwen Shi, Carlos Oliver

发表机构 * Department of Computer Science, Vanderbilt University（范德比尔特大学计算机科学系）； Center for AI in Protein Dynamics, Vanderbilt University（蛋白质动力学中的人工智能中心，范德比尔特大学）； Department of Molecular Physiology and Biophysics, Vanderbilt University（分子生理学与生物物理学系，范德比尔特大学）

AI总结本文提出了一种名为 Ensembits 的新型蛋白质构象集合分词器，旨在解决现有分词器无法捕捉蛋白质动态构象变化的问题。该方法通过引入残差 VQ-VAE 模型和帧蒸馏目标函数，能够有效编码不同构象间的几何特征和动态变化，实现对蛋白质运动状态的精确描述。Ensembits 在多个任务中表现出色，包括 RMSF 预测、功能注释和突变效应预测等，并且在数据量远少于静态分词器的情况下仍能取得优异性能，为蛋白质语言建模和设计提供了重要的动态词汇基础。

2605.13773 2026-05-15 cs.SE cs.AI cs.LO 版本更新

(How) Do Large Language Models Understand High-Level Message Sequence Charts?

Mohammad Reza Mousavi

发表机构 * Department of Informatics, King's College London（伦敦国王学院信息学院）

AI总结本文研究了大型语言模型（LLMs）对高层消息序列图（HMSCs）形式语义的理解程度。通过让三种主流LLMs完成129项与HMSC语义相关的任务，发现它们对基本语义概念的理解较好，但在涉及抽象、组合以及追踪和标签转换系统等复杂语义推理任务时表现较差。研究揭示了当前LLMs在处理具有严格形式语义的软件设计模型时仍存在显著局限。

2605.13369 2026-05-15 cs.CL cs.AI cs.LG 版本更新

Query-Conditioned Test-Time Self-Training for Large Language Models

Chaehee Song, Minseok Seo, Yeeun Seong, Doyi Kim, Changick Kim

发表机构 * School of Electrical Engineering, KAIST（韩国科学技术院电子工程学院）； Graduate School of Green Growth and Sustainability, KAIST（韩国科学技术院可持续增长与绿色发展研究生院）

AI总结本文提出了一种名为 QueST 的查询条件化测试时自训练框架，用于在推理过程中根据输入查询动态调整大语言模型的参数，以提升模型对特定问题的适应能力。核心思想是利用输入查询中隐含的结构信息生成相关的“问题-解答”对，作为测试时参数高效微调的监督信号，从而无需外部数据即可实现模型的查询特异性优化。实验表明，QueST 在多个数学和科学推理基准上优于现有的测试时优化方法，验证了该方法的有效性与实用性。

Comments 17 pages, 7 figures

2605.13362 2026-05-15 cs.MA cs.AI cs.DC cs.GT econ.TH 版本更新

Constitutional Governance in Metric Spaces

Ehud Shapiro, Nimrod Talmon

发表机构 * London School of Economics and Weizmann Institute of Science（伦敦经济学院和魏茨曼科学研究院）； Ben-Gurion University（本· Gurion大学）

AI总结本文研究了在度量空间中实现平等自主治理的计算机制，提出了宪法治理框架，将提案、审议、修改和共识等过程整合为一个多项式时间协议。该框架通过为每个可修改的组件分配度量空间、聚合规则和超级多数阈值，支持成员通过理想元素投票并提交获得超级多数支持的公开提案，从而实现宪法共识。研究还展示了该框架在七个典型场景中的应用，并证明了广义中位数在多数阈值下具有良好的激励相容性，为数字社区和组织的宪法治理提供了全面解决方案。

2605.13276 2026-05-15 cs.AI cs.RO 版本更新

D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models

Yucheng Guo, Yongjian Guo, Zhong Guan, Wen Huang, Haoran Sun, Haodong Yue, Xiaolong Xiang, Shuai Di, Zhen Sun, Luqiao Wang, Junwu Xiong, Yicheng Gong

发表机构 * Tsinghua University（清华大学）； Peking University（北京大学）； Tianjin University（天津大学）； Beihang University（北航）； JDT AI Infra（京东AI基础设施）

AI总结随着具身人工智能的快速发展，视觉-语言-动作（VLA）模型在多模态感知和任务执行方面表现出色，但在大规模分布式环境中应用强化学习（RL）时面临系统瓶颈，主要源于高保真物理仿真与深度学习对显存和带宽的高需求之间的资源冲突。为解决这一问题，本文提出D-VLA，一种高并发、低延迟的分布式RL框架，通过“平面解耦”和“泳道”异步流水线等创新设计，有效分离训练数据与模型优化过程，实现采样、推理、梯度计算和参数分发的全并行重叠，显著提升了大规模VLA模型的训练吞吐量和采样效率。

2605.13213 2026-05-15 cs.AI 版本更新

Hierarchical Attacks for Multi-Modal Multi-Agent Reasoning

Hao Zhou, Tiru Wu, Yan Jiang, Wanqi Zhou, Junxing Hu, Ai Han

AI总结本文研究了多模态多智能体系统（MM-MAS）在面对对抗攻击时的脆弱性，提出了一种分层攻击框架HAM$^{3}$，通过感知层、通信层和推理层三个层面协同攻击，分别扰动输入数据、通信内容与结构以及智能体的推理过程。实验表明，该方法在GQA基准上取得了高达78.3%的攻击成功率，尤其在推理层攻击效果显著，能够使多个智能体产生一致的错误判断，为构建更鲁棒和可解释的多智能体系统提供了重要参考。

Comments Accepted to CVPR 2026

Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026

2605.13137 2026-05-15 cs.IR cs.AI 版本更新

LeanSearch v2: Global Premise Retrieval for Lean 4 Theorem Proving

Guoxiong Gao, Zeming Sun, Jiedong Jiang, Yutong Wang, Jingda Xu, Peihao Wu, Bryan Dai, Bin Dong

发表机构 * School of Mathematical Sciences, Peking University（北京大学数学科学学院）； IQuest Research（IQuest研究院）； Research Institute for Mathematical Sciences, Kyoto University（京都大学数学研究所）； Westlake Institute for Advanced Study, Westlake University（西湖研究所在线高级研究院）； Beijing International Center for Mathematical Research and the New Cornerstone Science Laboratory, Peking University（北京国际数学研究中心和新基石科学实验室，北京大学）； Center for Machine Learning Research, Peking University（北京大学机器学习研究中心）； Center for Intelligent Computing, Great Bay Institute for Advanced Study, Great Bay University（智能计算中心，Great Bay高级研究院，Great Bay大学）； Zhongguancun Academy（中关村学院）

AI总结 LeanSearch v2 是一种用于 Lean 4 定理证明的全局前提检索系统，旨在从数学库中找到能够支持定理证明的多个相关引理。该系统包含两种模式：标准模式通过嵌入-重排序流程实现高精度的单次查询检索，而推理模式则通过迭代的草稿-检索-反思循环实现全局前提的恢复。实验表明，LeanSearch v2 在多个基准测试中显著优于现有系统，有效提升了定理证明的成功率。

2605.13126 2026-05-15 cs.LG cs.AI 版本更新

MLGIB: Multi-Label Graph Information Bottleneck for Expressive and Robust Message Passing

Chaokai Wu, Haofu Shi, Ningxuan Ma, Jianghong Ma, Xiaofeng Zhang

AI总结本文研究了图神经网络（GNNs）在多标签场景下因信息压缩导致的过拟合问题，提出了一种名为MLGIB的多标签图信息瓶颈方法。该方法通过构建马尔可夫依赖空间并推导可计算的变分界，有效平衡了模型的表达能力和鲁棒性，在保留预测标签信号的同时抑制无关标签噪声。实验表明，MLGIB在多个基准数据集上均优于现有方法，验证了其有效性和通用性。

2605.13095 2026-05-15 cs.CR cs.AI cs.CY cs.LG 版本更新

Watermarking Should Be Treated as a Monitoring Primitive

Toluwani Aremu, Nils Lukas, Jie Zhang

发表机构 * MBZUAI（穆扎布伊人工智能研究所）； A*STAR（新加坡科技研究局）

AI总结该论文探讨了生成模型中水印技术在溯源、归因和安全监控中的应用，并指出当前水印评估通常仅针对单个样本的对抗攻击，忽视了观察者通过聚合多个输出信号进行实体级信息推断的能力。研究引入了基于观察者的威胁模型，表明即使零比特水印也能在多密钥环境下实现归因，并揭示了水印设计在外部监控方面的潜在风险与应对策略。论文揭示了归因与监控之间的根本性双重用途矛盾，强调水印评估应超越单样本鲁棒性，考虑聚合分析和观察者能力的影响。

Comments 12 pages, 5 figures

2605.13084 2026-05-15 cs.CL cs.AI 版本更新

Does language matter for spoken word classification? A multilingual generative meta-learning approach

Batsirayi Mupamhi Ziki, Louise Beyers, Ruan van der Merwe

发表机构 * Bytefuse

AI总结本文研究了语言因素在少样本语音词分类中的影响，提出了一种基于生成式元学习的多语言方法。该方法通过生成元持续学习算法，在英语、德语、法语和加泰罗尼亚语等多语言环境下进行训练，发现多语言模型表现最佳，但不同模型之间的性能差异较小。研究还表明，训练数据的独特小时数比语言数量更能反映模型性能。

2605.13050 2026-05-15 cs.CL cs.AI 版本更新

Context Training with Active Information Seeking

Zeyu Huang, Adhiguna Kuncoro, Qixuan Feng, Jiajun Shen, Lucio Dery, Arthur Szlam, Marc'Aurelio Ranzato

发表机构 * The University of Edinburgh（爱丁堡大学）

AI总结本文研究了如何通过主动信息检索提升大型语言模型在新任务中的适应能力。不同于传统依赖模型内部知识的封闭式方法，作者为上下文优化器引入了维基百科搜索和浏览器工具，以主动获取外部信息。通过设计一种基于搜索的训练流程，有效维护和剪枝多个候选上下文，显著提升了模型在低资源翻译、医疗场景和复杂推理等任务中的表现，同时表现出良好的数据效率和泛化能力。

Comments Preprint

2605.12968 2026-05-15 cs.LG cs.AI cs.CL cs.LO 版本更新

Controlling Logical Collapse in LLMs via Algebraic Ontology Projection over F2

Hisashi Miyashita, Mgnite Inc

发表机构 * Mgnite Inc（Mgnite公司）

AI总结该研究探讨了大语言模型是否在内部以可形式验证的代数结构编码本体关系，并提出了一种代数本体投影（AOP）方法，通过在有限域F2上投影隐藏状态，仅使用42对关系作为代数密钥，实现了高达93.33%的零样本包含准确率。研究还引入了语义结晶度（SC）指标，用于量化模型满足F2约束的程度，并揭示了系统提示在防止模型深层逻辑崩溃中的关键作用，为理解大语言模型的逻辑结构提供了新的代数视角。

2605.12856 2026-05-15 cs.AI cs.SI 版本更新

Moltbook Moderation: Uncovering Hidden Intent Through Multi-Turn Dialogue

Ali Al-Lawati, Nafis Tripto, Abolfazl Ansari, Jason Lucas, Suhang Wang, Dongwon Lee

发表机构 * The Pennsylvania State University（宾夕法尼亚州立大学）

AI总结本文研究了多智能体系统中隐藏恶意意图的检测问题，提出了基于智能体意图而非内容特征的 moderation 框架 BOT-MOD。该方法通过多轮对话和基于 Gibbs 采样的假设引导，逐步识别智能体的真实意图，有效区分良性与恶意行为。实验基于 Moltbook 构建的数据集验证了方法的有效性，能够在多种对抗场景下准确识别意图，同时保持较低的误报率，为开放多智能体环境中的意图感知 moderation 提供了新思路。

2605.12394 2026-05-15 cs.LG cs.AI 版本更新

Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory

Hari K. Prakash, Charles H Martin

发表机构 * University of California San Diego（加州大学圣地亚哥分校）； Data Science and Engineering（数据科学与工程）； Calculation Consulting（计算咨询）

AI总结本文提出了一种基于随机矩阵理论的新方法，用于在深度学习模型训练过程中检测过拟合现象，而无需访问训练或测试数据。该方法通过随机化每一层的权重矩阵，并拟合其经验谱分布，识别出违反自平均性的异常特征值，称为“相关陷阱”。研究发现，在长期视角下的“反直觉学习”阶段，这些陷阱会随着测试准确率下降而逐渐形成和扩大，揭示了过拟合的结构特征，并指出部分大型语言模型中也存在类似的陷阱，可能暗示潜在的过拟合风险。

Comments 24 pages, 24 figures

2605.12350 2026-05-15 cs.LG cs.AI 版本更新

A New Technique for AI Explainability using Feature Association Map

Sayantani Ghosh, Amit Kumar Das, Amlan Chakrabarti

发表机构 * DBS Bank（DBS银行）； Institute of Engineering & Management（工程与管理学院）； University of Calcutta（加尔各答大学）

AI总结本文提出了一种基于特征关联图（FAM）的新型可解释人工智能算法FAMeX，用于解释AI系统的决策过程。该方法通过构建特征之间的关联图，从图论角度分析特征的重要性，从而更准确地揭示模型的决策依据。实验表明，FAMeX在分类任务中优于现有的可解释性算法如PFI和SHAP，展现出更高的解释能力和有效性。

2605.11853 2026-05-15 cs.LG cs.AI cs.CL 版本更新

GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation

Sijia Li, Yuchen Huang, Zifan Liu, Yanping Li, Jingjing Fu, Li Zhao, Jiang Bian, Ling Zhang, Jun Zhang, Rui Wang

发表机构 * Hong Kong University of Science and Technology（香港科技大学）； Microsoft Research Asia（微软亚洲研究院）

AI总结该论文提出了一种名为GEAR的粒度自适应优势重加权方法，旨在提升大语言模型代理在强化学习中的训练效果。GEAR通过自蒸馏技术，利用token级和段级信号对轨迹级优势进行重加权，从而实现更细粒度的信用分配。该方法通过比较策略网络与教师模型的差异，动态调整信用区域的粒度，有效提升了长期轨迹中的策略更新效率。实验表明，GEAR在多个数学推理和工具使用基准中优于现有方法，尤其在基础较弱的基准上表现突出。

2605.11611 2026-05-15 cs.AI 版本更新

CuSearch: Curriculum Rollout Sampling via Search Depth for Agentic RAG

Jianghan Shen, Siqi Luo, Xinyu Cheng, Jing Xiong, Yue Li, Jiyao Liu, Jiashi Lin, Yirong Chen, Junjun He

发表机构 * Nanjing University（南京大学）； Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Peking University（北京大学）； University of Hong Kong（香港大学）

AI总结本文提出了一种名为 CuSearch 的课程式 rollout 采样框架，用于改进基于可验证奖励的强化学习（RLVR）中智能体检索增强生成（RAG）系统的训练。该方法通过搜索深度（search depth）来动态调整 rollout 采样策略，更关注那些包含更多检索决策点、提供更密集监督的深层搜索轨迹。实验表明，CuSearch 能够显著提升不同模型和检索框架下的性能，为 RLVR 训练提供了一种无需人工标注的有效优化手段。

2605.11459 2026-05-15 cs.RO cs.AI cs.CV cs.LG 版本更新

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

Yanyan Zhang, Chaoda Song, Vikash Singh, Xinpeng Li, Kai Ye, Zhe Hu, Zhongzhu Pu, Yu Yin, Vipin Chaudhary

发表机构 * Case Western Reserve University（凯斯西储大学）； The Hong Kong Polytechnic University（香港理工大学）； Tsinghua University（清华大学）； InspireOmni AI

AI总结视觉-语言-动作（VLA）模型在灵活性和泛化能力方面表现出色，但大多数现有模型由于采用单帧观测范式，无法感知时间动态变化，导致在非静态环境中性能显著下降。本文提出了一种无需训练的“节奏与路径校正”方法，通过在推理阶段对分块动作的VLA模型进行闭式修正，有效补偿动态变化带来的影响。该方法从单一二次成本函数出发，通过联合优化得到两个正交分解的通道，分别用于压缩执行节奏和调整空间路径，从而在动态环境中显著提升任务成功率。

2605.11410 2026-05-15 cs.AI 版本更新

What Do EEG Foundation Models Capture from Human Brain Signals?

Ling Tang, Qian Chen, Jilin Mei, Houshi Xu, Quanshi Zhang, Jing Shao, Na Zou, Xia Hu, Dongrui Liu

发表机构 * Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Shanghai Jiao Tong University（上海交通大学）； Fudan University（复旦大学）； Tongji University（同济大学）； University of Houston（休斯顿大学）

AI总结该研究探讨了EEG基础模型从人类脑电信号中学习到了哪些信息，并分析了其表征与传统手工特征之间的关系。通过层间岭回归、跨协方差子空间擦除等方法，研究发现EEG基础模型在多个临床任务中表现出色，其优势主要来源于频率域特征及其他多种手工特征的组合。研究还揭示了不同任务中模型性能的差异，并为未来特征发现提供了明确方向。

2605.10664 2026-05-15 cs.CL cs.AI 版本更新

Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions

Diancheng Kang, Zheyuan Liu, Ningshan Ma, Yue Huang, Zhaoxuan Tan, Meng Jiang

发表机构 * Southern University of Science and Technology（南方科技大学）； University of Notre Dame（Notre Dame 大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结该论文研究了如何在对话场景中更有效地控制语言模型的行为，提出了一种新的激活引导方法，以解决传统方法在长对话中累积失效的问题。作者发现，键值缓存污染是导致引导效果下降的主要原因，并提出了一种基于门控裁剪注意力差值的引导方法（GCAD），通过系统提示对自注意力机制的影响进行引导信号提取，并在词元级别进行门控处理。实验表明，该方法在保持角色特征控制的同时，显著提升了长对话中的连贯性与角色表现能力。

Comments 23 pages, 5 figures. This paper proposes GCAD, an attention-level activation steering method for more stable multi-turn behavior control

2605.10310 2026-05-15 cs.AI cs.CY cs.HC q-bio.NC 版本更新

Positive Alignment: Artificial Intelligence for Human Flourishing

Ruben Laukkonen, Seb Krier, Chloé Bakalar, Shamil Chandaria, Morten Kringelbach, Adam Elwood, Daniel Ford, Fernando Rosas, Maty Bohacek, Matija Franklin, Nenad Tomašev, Stephanie Chan, Verena Rieser, Roma Patel, Michael Levin, Arun Rao

发表机构 * Department of Psychiatry, University of Oxford（牛津大学精神病学系）； Flourishing Intelligence Program, Centre for Eudaimonia and Human Flourishing, Linacre College, University of Oxford（牛津大学幸福智能计划、幸福与人类繁荣中心、林acre学院）； Google DeepMind（谷歌DeepMind）； LIFE ； OpenAI ； Anthropic ； University of California, Los Angeles（加州大学洛杉矶分校）； Aily Labs（Aily实验室）； Stanford University（斯坦福大学）； Tufts University（塔夫茨大学）； Positive AI Labs（积极AI实验室）； Department of Informatics, University of Sussex（Sussex大学信息学系）； Department of Brain Sciences, Imperial College London（伦敦帝国理工学院脑科学系）

AI总结本文提出“积极对齐”（Positive Alignment）的概念，旨在开发能够主动支持人类和生态繁荣的人工智能系统，同时保持安全与合作。与现有聚焦于安全与风险防范的对齐研究不同，积极对齐强调系统应具备多元、去中心化、情境敏感及用户主导的特性，并通过培养美德、促进人类福祉来解决当前对齐中的诸多问题。文章还提出了在大语言模型和智能体生命周期中的一系列技术方向与设计原则，以推动分歧包容与去中心化治理。

2605.09825 2026-05-15 cs.LG cs.AI 版本更新

Pretraining large language models with MXFP4 on Native FP4 Hardware

Musa Cim, Poovaiah Palangappa, Miro Hodak, Ravi Dwivedula, Meena Arunachalam, Mahmut Taylan Kandemir

发表机构 * The Pennsylvania State University（宾夕法尼亚州立大学）； Advanced Micro Devices, Inc.（先进微器件公司）

AI总结本文研究了在原生FP4硬件上使用MXFP4量化进行大语言模型预训练时出现的训练不稳定性问题。通过控制实验，逐步启用FP4在前向传播、激活梯度和权重梯度中，发现权重梯度的量化是导致收敛性能下降的主要原因。研究进一步表明，确定性哈达玛旋转能够有效恢复稳定优化，而随机化方法则无法做到这一点，揭示了训练不稳定性源于敏感梯度路径上的结构化微缩误差，而非随机性不足。实验在AMD Instinct MI355X GPU上进行，无需依赖软件模拟即可验证这些结论。

2605.09038 2026-05-15 cs.AI 版本更新

SearchSkill: Teaching LLMs to Use Search Tools with Evolving Skill Banks

Jinchao Hu, Meizhi Zhong, Kehai Chen, Min Zhang

发表机构 * School of Computer Science and Technology, Harbin Institute of Technology, Shenzhen（哈尔滨工业大学深圳校区计算机科学与技术学院）； TikTok Inc, Beijing（字节跳动北京公司）

AI总结本文提出了一种名为SearchSkill的框架，旨在教会大语言模型更有效地使用搜索工具，特别是在开放域问答任务中。该方法通过可复用的搜索技能库显式规划查询过程，模型在每一步先选择一个技能，再根据该技能生成搜索或回答动作。技能库会随着训练过程中的失败模式不断进化和优化，从而提升搜索效率和答案准确性。实验表明，SearchSkill在多个知识密集型问答基准上提升了精确匹配率，并改善了搜索行为，如减少复制初始查询、生成更聚焦的查询以及在有限搜索预算下获得更准确的答案。

2605.09027 2026-05-15 cs.CL cs.AI cs.LG cs.MA 版本更新

GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives

Alexandre Le Mercier, Chris Develder, Thomas Demeester

发表机构 * IDLab–T2K, Ghent University–imec（IDLab–T2K，根特大学–imec）

AI总结在多智能体系统中，一个欺骗性智能体可能破坏整个智能体集体的性能并绕过防御机制。为解决现有研究在对抗性鲁棒性评估上的不足，本文提出GAMBIT基准，包含三种评估模式和两种独立评分，用于评估伪装智能体检测器的性能，特别关注其在分布偏移和新型攻击下的适应能力。GAMBIT基于国际象棋构建，引入了可泛化的自适应欺骗智能体，并提供了27,804个标注样本，揭示了零样本评估在面对自适应对手时可能产生误导性结果，同时展示了快速校准方法在对抗性系统中的有效性。

Comments 46 pages, 16 figures

详情

英文摘要

In multi-agent systems (MAS), a single deceptive agent can nullify all gains of an agentic AI collective and evade deployed defenses. However, existing adversarial studies on MAS target only shallow tasks and do not consider adaptive adversaries, which evolve their strategies to evade the very detectors trained to catch them. To address that gap, we introduce GAMBIT, a benchmark with three evaluation modes and two independent scores for evaluating imposter detectors: the first two modes measure zero-shot detection under increasing distribution shift, and a third recalibration mode measures how quickly a detector adapts to novel attacks from just 20 labeled examples. The benchmark comes with a dataset of 27,804 labeled instances spanning 240 co-evolved imposter strategies. Our contributions are threefold: (1) Using chess as a substrate deep reasoning problem and Gemini 3.1 Pro for agents, we release GAMBIT and its dataset to evaluate imposter detectors under realistic constraints against a stealthy adaptive imposter; (2) We introduce an adaptive imposter agent based on an efficient evolutionary framework, generalizable beyond chess, that collapses collective task performance while remaining essentially undetectable (50.5% F1-score with a Gemini-based detector); (3) We show that zero-shot evaluation can be highly misleading for adaptive adversaries: two detectors with near-identical zero-shot scores differ by 8x on few-shot adaptation, while the meta-learned variant converges 20x faster, a gap only visible in the recalibration mode. Altogether, GAMBIT provides the first multi-agent benchmark where adversarial attacks and defenses co-evolve, with an imposter framework generalizable beyond our use case, and promising techniques for fast recalibration in a rapidly evolving adversarial system. Code and data: https://anonymous.4open.science/r/gambit.

URL PDF HTML ☆

赞 0 踩 0

2605.09018 2026-05-15 cs.NE cs.AI cs.LG 版本更新

Evolutionary Ensemble of Agents

Zongmin Yu, Liu Yang

发表机构 * National University of Singapore（新加坡国立大学）

AI总结本文提出了一种名为EvE的进化集成框架，用于组织现有的高能力编码代理，使其形成一个协同进化的系统，以实现算法发现。该方法固定基础代理结构，专注于进化代理行为的指导与技能，通过两个协同进化的种群（功能代码求解器和代理指导状态）进行同步竞争，并根据其对当前求解状态的边际贡献更新代理的Elo评分。实验表明，EvE在In-Context Operator Networks（ICON）的研究瓶颈中自主发现了可靠的缩放-插值机制，展示了其在复杂代码库中通过自适应代理集成突破性能瓶颈的有效性。

2605.08851 2026-05-15 cs.CV cs.AI cs.LG 版本更新

Geometrically Constrained Stenosis Editing in Coronary Angiography via Entropic Optimal Transport

Jialin Li, Zhuo Zhang, Yue Cao, Guipeng Lan, Jiabao Wen, Shuai Xiao, Jiachen Yang

发表机构 * School of Electrical and Information Engineering, Tianjin University, Tianjin, China（天津大学电气与信息工程学院）

AI总结该研究针对冠状动脉造影中狭窄病变检测数据不足的问题，提出了一种基于熵最优传输的几何约束狭窄编辑方法。通过将局部编辑建模为受几何信息引导的熵最优传输问题，该方法实现了更精确的结构控制和图像生成。实验表明，该方法生成的图像显著提升了狭窄检测性能，在公开数据集和多中心数据集上分别取得了27.8%和23.0%的相对性能提升。

Comments Accepted to ICML 2026

2605.08374 2026-05-15 cs.AI 版本更新

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

Junwei Liao, Haoting Shi, Ruiwen Zhou, Jiaqian Wang, Shengtao Zhang, Wei Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Bo Tang, Weinan Zhang, Muning Wen

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Shanghai Innovation Institute（上海创新研究院）； National University of Singapore（新加坡国立大学）； Xidian University（西安电子科技大学）； University of Science and Technology of China（中国科学技术大学）； MemTensor (Shanghai) Technology Co., Ltd.（MemTensor（上海）科技有限公司）

AI总结本文提出了一种名为MemQ的新型记忆代理框架，通过将Q学习机制引入基于溯源DAG的记忆系统，解决了现有方法在处理记忆依赖关系时的不足。MemQ利用TD($λ$)资格迹对记忆Q值进行更新，并通过溯源DAG反向传播信用，使记忆之间的依赖关系得到更准确的评估。实验表明，MemQ在六个不同领域的基准测试中均表现出优越的泛化能力和运行时学习效果，尤其在涉及多步骤任务的场景中提升显著。

Comments 22 pages, 11 figures (containing 43 individual image panels total)

2605.08278 2026-05-15 cs.LG cs.AI cs.CR 版本更新

Trapping Attacker in Dilemma: Examining Internal Correlations and External Influences of Trigger for Defending GNN Backdoors

Fan Yang, Binyan Xu, Di Tang, Kehuan Zhang

发表机构 * The Chinese University of Hong Kong（香港中文大学）； Sun Yat-Sen University（中山大学）

AI总结本文研究了图神经网络（GNN）在面对后门攻击时的防御问题，提出了一种名为PRAETORIAN的新防御方法。该方法通过分析潜在触发子图的内部关联和外部节点影响，检测异常注入结构并识别具有不成比例影响的触发节点，从而有效识别攻击。实验表明，PRAETORIAN在保持较高干净数据准确率的同时显著降低了攻击成功率，且对多种自适应攻击仍保持有效性，迫使攻击者陷入效用与可检测性之间的不利权衡。

2605.05686 2026-05-15 cs.AI 版本更新

Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination

Qiyao Liang, Risto Miikkulainen, Ila Fiete

发表机构 * Massachusetts Institute of Technology（麻省理工学院）； University of Texas Austin（德克萨斯大学奥斯汀分校）； Cognizant（Cognizant公司）

AI总结该研究探讨了语言模型在生成过程中可能出现的两种失败模式：知识冲突和自信幻觉，并揭示了它们在隐藏状态空间中的统一几何解释。研究发现，模型中学习到的事实形成吸引子盆地，冲突源于工作记忆干扰正确吸引子的收敛，而幻觉则源于缺乏对应吸引子导致隐藏状态自由漂移。通过几何边距指标，研究成功区分了正确回忆与幻觉，并验证了该结构特性不依赖于微调，且随着模型规模增大，自信幻觉的比例呈指数增长。

Comments 9 pages, 6 figures, plus appendices

详情

英文摘要

Language models draw on two knowledge sources: facts baked into weights (parametric memory, PM) and information in context (working memory, WM). We study two mechanistically distinct failure modes--conflict, when PM and WM disagree and interfere; and hallucination, when the queried fact was never learned. Both produce confident output regardless, making output-based monitoring blind by design. We show both failures share a unified geometric account. In the hidden-state space of autoregressive generation, learned facts form attractor basins. Conflict is basin competition: WM disrupts convergence to the correct basin without raising output entropy. Hallucination is basin absence: the hidden state drifts freely when no memorized basin exists. The frozen LM head, designed for next-token prediction, cannot distinguish these cases and fires confidently either way. We verify this account in a controlled synthetic task-entity identifiers mapped to unique codes with PM installed via LoRA adapters--where ground truth is exact and component roles can be causally isolated through targeted adapter placement. Geometric margin--the hidden state's distance to the nearest memorized basin--reads this geometry directly and separates correct recall from hallucination far more cleanly than output entropy, with zero false refusals where entropy-based detection cannot avoid rejecting the vast majority of correct outputs. The separation holds on natural-language factual queries from the pretrained model with no adaptation, confirming attractor geometry is structural rather than a fine-tuning artifact. The fraction of confident hallucinations follows a scaling law $C = \exp(-c/\barΔ)$, growing with scale even as overall error rates fall. Hidden states reliably encode epistemic state; the frozen output head systematically erases it--and this erasure worsens with scale.

URL PDF HTML ☆

赞 0 踩 0

2605.04215 2026-05-15 cs.LG cs.AI 版本更新

Predict-then-Diffuse: Adaptive Response Length for Compute-Budgeted Inference in Diffusion LLMs

Michael Rottoli, Subhankar Roy, Stefano Paraboschi

AI总结扩散式大语言模型（D-LLMs）在生成任务中具有高并行性和优越的GPU利用率，但其固定响应长度的限制导致计算资源浪费或输出截断的问题。为此，本文提出“Predict-then-Diffuse”框架，通过一个自适应响应长度预测器（AdaRLP）先估计输入对应的最优响应长度，再进行扩散生成，从而在保证输出质量的同时减少冗余计算。实验表明，该方法在多个数据集上有效降低了计算成本，且对数据分布的偏态具有鲁棒性。

2605.03596 2026-05-15 cs.AI cs.CL cs.DB cs.LG 版本更新

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Yukai Wu, Weizheng Wang, Hongzhang Huang, Wei Zhou, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu

发表机构 * GitHub

AI总结 Workspace-Bench 1.0 是一个用于评估 AI 智能体在工作空间任务中处理大规模文件依赖关系能力的基准。该研究构建了包含多种文件类型和真实工作场景的复杂工作空间，并设计了大量任务来测试智能体的跨文件检索、上下文推理和适应性决策能力。实验表明，当前主流 AI 模型在该基准上的表现仍远低于人类水平，突显了在真实工作场景中实现可靠工作空间学习的挑战。

Comments 30 pages, 16 figures

2605.02398 2026-05-15 cs.AI cs.CL cs.LG 版本更新

The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure

Rahul Kumar

发表机构 * Independent Researcher（独立研究者）

AI总结随着前沿AI模型被用于高风险决策流程，其在对抗性压力下保持元认知稳定性的能力成为关键的安全要求。本文研究了模型在面对强制合规指令时出现的元认知崩溃现象，并提出了“合规陷阱”这一新概念，指出模型性能的严重下降并非源于威胁内容本身，而是由强制性指令引发的认知边界突破所致。通过大规模实验，作者发现大多数模型在对抗性条件下表现出显著的性能下降，而Anthropic的 Constitutional AI 由于对齐训练表现出较强的免疫能力。

Comments 9 pages, 2 figures, 3 tables. Code: https://github.com/rkstu/schema-compliance-trap Dataset: https://huggingface.co/datasets/lightmate/schema-compliance-trap

2605.01758 2026-05-15 cs.AI 版本更新

Catching the Infection Before It Spreads: Foresight-Guided Defense in Multi-Agent Systems

Yue Ma, Ziyuan Yang, Yi Zhang

发表机构 * Sichuan University（四川大学）； Nanyang Technological University（南洋理工大学）

AI总结该研究针对多智能体系统中感染式越狱攻击的问题，提出了一种无需训练的前瞻性引导本地净化（FLP）框架。该方法通过模拟未来交互轨迹，结合多角色模拟策略，检测并消除智能体中的感染行为，有效降低了感染传播率。实验表明，FLP能将最大累计感染率从超过95%降至5.47%以下，同时保持交互多样性，显著优于现有方法。

Comments 12 pages

详情

英文摘要

Large multimodal model-based Multi-Agent Systems (MASs) enable collaborative complex problem solving through specialized agents. However, MASs are vulnerable to infectious jailbreak, where compromising a single agent can spread to others, leading to widespread compromise. Existing defenses counter this by training a more contagious cure factor, biasing agents to retrieve it over virus adversarial examples (VirAEs). However, this homogenizes agent responses, providing only superficial suppression rather than true recovery. We revisit these defenses, which operate globally via a shared cure factor, while infectious jailbreak arise from localized interaction behaviors. This mismatch limits their effectiveness. To address this, we propose a training-free Foresight-Guided Local Purification (FLP) framework, where each agent reasons over future interactions to track behavioral evolution and eliminate infections. Specifically, each agent simulates future behavioral trajectories over subsequent chat rounds. To reflect diversity in MASs, we introduce a multi-persona simulation strategy for robust prediction across interaction contexts. We then use response diversity as a diagnostic signal to detect infection by analyzing inconsistencies across persona-based predictions at both retrieval-result and semantic levels. For infected agents, we apply localized purification: recent infections are mitigated via immediate album rollback, while long-term infections are handled using Recursive Binary Diagnosis (RBD), which recursively partitions the image album and applies the same diagnosis strategy to localize and eliminate VirAEs. Experiments show that FLP reduces the maximum cumulative infection rate from over 95% to below 5.47%. Moreover, retrieval and semantic metrics closely match benign baselines, indicating effective preservation of interaction diversity.

URL PDF HTML ☆

赞 0 踩 0

2605.01725 2026-05-15 cs.CV cs.AI 版本更新

Motion-Aware Caching for Efficient Autoregressive Video Generation

Jing Xu, Yuexiao Ma, Xuzhe Zheng, Xing Wang, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Songwei Liu

发表机构 * Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, Xiamen University（多媒体可信感知与高效计算重点实验室，中国教育部，厦门大学）； Max Planck Institute for Intelligent Systems（智能系统马克斯·普朗克研究所）； ELLIS Institute Tübingen（图宾根ELLIS研究所）； Tübingen AI Center（图宾根人工智能中心）

AI总结本文研究了如何通过运动感知的缓存机制提升自回归视频生成的效率。现有方法依赖于粗粒度的块级缓存跳过，无法准确捕捉像素级别的动态变化，导致生成质量下降。为此，作者提出了MotionCache，通过帧间差异作为像素运动的轻量代理，结合粗到细的策略，在保证生成质量的前提下显著提升了生成速度。实验表明，MotionCache在多个先进模型上实现了最高达6.28倍的加速，同时保持了高质量的生成效果。

Comments 20 pages

2604.21809 2026-05-15 cs.LG cs.AI q-bio.QM stat.ML 版本更新

Quotient-Space Diffusion Models

Yixian Xu, Yusong Wang, Shengjie Luo, Kaiyuan Gao, Tianyu He, Di He, Chang Liu

发表机构 * State Key Laboratory of General Artificial Intelligence, Peking University, Beijing, China（一般人工智能国家重点实验室，北京大学，北京，中国）； Huazhong University of Science and Technology, Wuhan, China（华中科技大学，武汉，中国）； Microsoft Research Asia, Beijing, China（微软亚洲研究院，北京，中国）； Zhongguancun Academy, Beijing, China（中关村学院，北京，中国）

AI总结本文提出了一种名为商空间扩散模型（Quotient-Space Diffusion Models）的生成模型框架，旨在有效处理和利用系统中的对称性。该方法通过在去除对称冗余的商空间上进行生成过程，使模型能够在保持目标对称分布的前提下，更灵活地学习生成过程。该框架在分子结构生成任务中进行了实例化，相比等变扩散模型和基于对齐的方法，表现出更优的性能，为生成模型中的对称性处理提供了新的解决方案。

Comments ICLR 2026 Oral Presentation; 43 pages, 5 figures, 6 tables; ICLR 2026 Camera Ready version

2604.19092 2026-05-15 cs.RO cs.AI 版本更新

RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

Feng Jiang, Yang Chen, Kyle Xu, Yuchen Liu, Haifeng Wang, Zhenhao Shen, Jasper Lu, Shengze Huang, Yuanfei Wang, Chen Xie, Ruihai Wu

发表机构 * Peking University（北京大学）； Tsinghua University（清华大学）； Lightwheel

AI总结 RoboWM-Bench 是一个专注于机器人操作任务的基准，用于评估视频世界模型在生成行为是否具备物理可执行性。该基准通过将生成的视频转化为可执行的动作序列，并在物理仿真环境中验证其可行性，从而系统评估模型在真实机器人操作中的表现。研究发现，视觉合理性与物理可执行性并不总是一致，突显了在复杂操作任务中进行具身化评估的重要性。

2604.16744 2026-05-15 cs.CL cs.AI cs.HC 版本更新

Evaluating Adaptive Personalization of Educational Readings with Simulated Learners

Ryan T. Woo, Anmol Rao, Aryan Keluskar, Yinong Chen

发表机构 * School of Computing and Augmented Intelligence（计算与增强智能学院）； Arizona State University（亚利桑那州立大学）

AI总结本文提出了一种基于理论支持的模拟学习者框架，用于评估教育阅读材料的自适应个性化效果。该方法从开放教材中构建学习目标和知识组件本体，通过浏览器工具进行管理，并生成匹配的阅读与评估对。实验结果表明，自适应阅读在计算机科学中显著提升了学习效果，在无机化学中效果不明确，在普通生物学中则无明显提升甚至略有负面影响。

2604.16325 2026-05-15 cs.LG cs.AI 版本更新

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

Xingsheng Chen, Xianpei Mu, Deyu Yi, Yilin Yuan, Xingwei He, Bo Gao, Regina Zhang, Pietro Lio, Siu-Ming Yiu

AI总结多变量时间序列预测在能源、金融和环境监测等领域具有重要意义，但其复杂的时序依赖关系和变量间交互带来诸多挑战。为此，本文提出UniMamba，一个融合状态空间模型与注意力机制的统一时空预测框架，既保持了高效的计算性能，又能够捕捉显式的时序模式。该方法通过结合Mamba变体编码层、时空注意力层和前馈时序动态层，有效建模了全局时间依赖和变量间关系，在多个公开数据集上的实验表明，UniMamba在预测精度和计算效率方面均优于现有先进模型。

Comments The authors wish to withdraw this preprint due to a lack of consensus regarding the final authorship list and the order of authors

2604.09603 2026-05-15 cs.DC cs.AI cs.LG 版本更新

ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios

Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan

发表机构 * Qwen Applications Business Group of Alibaba（阿里巴巴文勤应用业务部）

AI总结 ECHO 是一种面向高并发场景的弹性推测解码框架，旨在提升大语言模型推理效率。该方法通过稀疏置信度门控机制，将推测执行重新建模为预算调度问题，灵活平衡解码深度与宽度，从而减少全局验证步骤并提高每步效率。实验表明，ECHO 在多种模型规模下均优于现有方法，尤其在工业级模型 Qwen3-235B 上实现了最高达 5.35 倍的加速效果。

2604.08991 2026-05-15 cs.CV cs.AI 版本更新

PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

Zhiyu Zhou, Peilin Liu, Ruoxuan Zhang, Luyang Zhang, Cheng Zhang, Hongxia Xie, Wen-Huang Cheng

发表机构 * Jilin University（吉林大学）； National Taiwan University（国立台湾大学）

AI总结本文提出PinpointQA，首个用于室内视频中小物体中心空间理解的数据集与基准，旨在评估模型在视频中精确定位目标物体并描述其位置的能力。该数据集基于ScanNet++和ScanNet200构建，包含1024个场景和10,094个问答对，涵盖四个逐步增加难度的任务，实验表明主流多模态大语言模型在该基准上仍存在明显性能差距，而通过PinpointQA进行微调可显著提升模型表现。

2603.24422 2026-05-15 cs.IR cs.AI cs.CL 版本更新

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

Ben Chen, Siyuan Wang, Yufei Ma, Zihan Liang, Xuxin Zhang, Yue Lv, Ying Yang, Huangyu Dai, Lingtao Mao, Tong Zhao, Zhipeng Qian, Xinyu Sun, Zhixin Zhai, Yang Zhao, Bochao Liu, Jingshan Lv, Xiao Liang, Hui Kong, Jing Chen, Han Li, Chenyi Lei, Wenwu Ou, Kun Gai

发表机构 * Kuaishou Technology（快手科技）

AI总结本文提出了一种名为 OneSearch-V2 的生成式检索框架，旨在解决现有系统在复杂查询理解、用户意图挖掘和偏好过拟合等方面的问题。该方法通过引入潜在推理增强的自蒸馏训练机制，提升了对用户深层需求的理解与匹配能力，并结合行为偏好对齐优化系统，有效缓解了单一转化指标带来的奖励黑客问题。实验表明，OneSearch-V2 在多项指标上均有显著提升，包括点击率、买家数量和订单量，并改善了搜索体验质量。

Comments Codes are available at https://github.com/benchen4395/onesearch-family. Feel free to contact benchen4395@gmail.com

详情

英文摘要

Generative Retrieval (GR) has emerged as a promising paradigm for modern search systems. Compared to multi-stage cascaded architecture, it offers advantages such as end-to-end joint optimization and high computational efficiency. OneSearch, as a representative industrial-scale deployed generative search framework, has brought significant commercial and operational benefits. However, its inadequate understanding of complex queries, inefficient exploitation of latent user intents, and overfitting to narrow historical preferences have limited its further performance improvement. To address these challenges, we propose OneSearch-V2, a latent reasoning enhanced self-distillation generative search framework. It contains three key innovations: (1) a thought-augmented complex query understanding module, which enables deep query understanding and overcomes the shallow semantic matching limitations of direct inference; (2) a reasoning-internalized self-distillation training pipeline, which uncovers users' potential yet precise e-commerce intentions beyond log-fitting through implicit in-context learning; (3) a behavior preference alignment optimization system, which mitigates reward hacking arising from the single conversion metric, and addresses personal preference via direct user feedback. Extensive offline evaluations demonstrate OneSearch-V2's strong query recognition and user profiling capabilities. Online A/B tests further validate its business effectiveness, yielding +3.98\% item CTR, +2.07\% buyer volume, and +2.11\% order volume. Manual evaluation further confirms gains in search experience quality, with +1.37\% in page good rate and +1.65\% in query-item relevance. More importantly, OneSearch-V2 effectively mitigates common search system issues such as information bubbles and long-tail sparsity, without incurring additional inference costs or serving latency.

URL PDF HTML ☆

赞 0 踩 0

2603.21250 2026-05-15 cs.AI 版本更新

Graph of States: Solving Abductive Tasks with Large Language Models

Yu Luo, Rongchen Gao, Lu Teng, Xidao Wen, Jiamin Jiang, Qingliang Zhang, Yongqian Sun, Shenglin Zhang, Jiasong Feng, Tong Liu, Wenjie Zhang, Dan Pei

发表机构 * Nankai University（南开大学）； Wenzhou Medical University（温州医科大学）； Alibaba Cloud（阿里云）； Tsinghua University（清华大学）

AI总结本文研究了大型语言模型在归纳和演绎推理之外的第三类逻辑推理——溯因推理中的应用。针对现有框架在结构化状态表示和显式状态控制方面的不足，作者提出了一种名为Graph of States（GoS）的神经符号框架，通过因果图编码逻辑依赖关系，并利用状态机控制推理过程的合法转移，从而将无约束的探索转化为有导向的搜索。实验表明，GoS在两个真实数据集上显著优于现有方法，为复杂溯因任务提供了稳健的解决方案。

2603.16659 2026-05-15 cs.AI econ.GN q-fin.EC 版本更新

LLMs learn scientific taste from institutional traces across the social sciences

Ziqin Gong, Ning Li, Huaikang Zhou

发表机构 * School of Economics and Management, Tsinghua University（清华大学经济管理学院）

AI总结该研究探讨了大型语言模型（LLMs）如何通过学习社会科学领域中的机构痕迹（如论文发表记录）来提升对低可验证性领域的评估能力。研究构建了八个学科的分级研究提案基准，并通过监督微调（SFT）训练模型，结果表明这些模型在判断研究价值方面显著优于随机猜测，甚至超越了前沿推理模型和专家评审的平均水平。研究还发现，模型的置信度与其预测准确性高度相关，表明其具备一定的判断可靠性。

2603.14360 2026-05-15 cs.LG cs.AI 版本更新

M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao

发表机构 * MIT-IBM Watson Lab（MIT-IBM沃森实验室）； Princeton University（普林斯顿大学）； Together AI

AI总结本文提出了一种名为 M$^2$RNN 的非线性循环神经网络架构，其核心特点是使用矩阵值隐藏状态和高表达力的非线性状态转移，旨在克服传统 Transformer 在复杂任务中的表达能力限制。研究发现，非线性 RNN 的性能受限于状态规模，而通过引入状态规模扩展机制，M$^2$RNN 能够高效利用张量核心进行计算，并在未见过的长序列上实现完美的状态追踪泛化。实验表明，M$^2$RNN 在大规模语言建模和混合架构中表现出色，相比现有模型在准确率和计算效率方面均有显著提升。

2603.12554 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages

Vishnu Teja Kunde, Fatemeh Doudi, Mahdi Farahbakhsh, Dileep Kalathil, Krishna Narayanan, Jean-Francois Chamberland

发表机构 * Department of Electrical & Computer Engineering（电气与计算机工程系）

AI总结该论文研究了如何将强化学习应用于扩散语言模型（DLMs）的序列生成任务。针对扩散模型难以直接计算序列级似然的问题，作者提出了一种基于有限时间马尔可夫决策过程的精确无偏策略梯度方法，通过分解去噪步骤并利用中间优势值进行优化。为提高计算效率，论文引入了熵引导的步骤选择机制和一步去噪奖励估计，有效避免了多步模拟的高计算成本。实验表明，该方法在编码和逻辑推理任务中取得了最先进的性能，尤其在数学推理方面表现突出。

2603.12529 2026-05-15 cs.LG cs.AI cs.CL 版本更新

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Alliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim

发表机构 * UT Austin（得克萨斯大学）； EPFL（苏黎世联邦理工学院）； ENS Paris-Saclay（巴黎-萨克雷大学）； Télécom Paris (IP Paris)（巴黎理工学院）

AI总结大型推理模型（LRMs）通过链式推理（CoT）在复杂任务中表现出色，但常因过度思考而浪费大量计算资源。本文提出TERMINATOR，一种用于推理过程中提前终止的策略，通过学习模型首次生成最终答案的位置，构建最优推理长度数据集，从而有效缩短CoT长度。实验表明，TERMINATOR在多个实际数据集上平均减少CoT长度14%-55%，并显著降低推理延迟。

Comments Updated and reorganized results. Added new results

2603.11042 2026-05-15 cs.CV cs.AI cs.LG cs.MM cs.SD 版本更新

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan

发表机构 * UNC Chapel Hill（北卡罗来纳大学教堂山分校）； Adobe Research（Adobe研究院）

AI总结本文提出了一种名为V2M-Zero的视频到音乐生成方法，能够在无需视频-音乐配对数据的情况下生成与视频事件时间对齐的音乐。该方法通过分别提取音乐和视频的事件曲线，捕捉各自模态中的时间结构变化，从而实现跨模态的时间同步。实验表明，V2M-Zero在多个基准数据集上取得了优于现有方法的性能，尤其在时间同步和语义对齐方面表现突出，并且实现了时间与音乐风格的独立控制。

Comments Project page: https://genjib.github.io/v2m_zero/

详情

英文摘要

Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-ZERO, a video-to-music generation approach that generates time-aligned music with disentangled time synchronization and semantic control (e.g., genre, mood) from video while requiring zero video-music pairs at training time. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-ZERO achieves state-of-the-art performance without any paired music-video data, surpassing the strongest prior baselines per metric with 5-9% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Our results validate that temporal alignment through within-modality features is not only effective for video-to-music generation but also leads to better performance than paired cross-modal supervision. Furthermore, our approach enables independent controls for timing and music style (e.g., genre, mood) for more controllable generation.

URL PDF HTML ☆

赞 0 踩 0

2603.07833 2026-05-15 cs.LG cs.AI 版本更新

Gradient Iterated Temporal-Difference Learning

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo

AI总结本文提出了一种名为梯度迭代时间差分学习（Gradient Iterated Temporal-Difference Learning）的新算法，旨在解决传统时间差分学习中半梯度更新可能导致的发散问题。该方法在迭代时间差分学习的基础上引入了对移动目标的梯度计算，从而提升算法的稳定性与学习效率。实验表明，该方法在多个基准任务中表现出与半梯度方法相当甚至更优的学习速度，尤其在Atari游戏中取得了显著效果，展示了其在强化学习领域的应用潜力。

2603.04885 2026-05-15 cs.AI 版本更新

Proactive Memory for Ad-Hoc Recall over Streaming Dialogues

Bingbing Wang, Jing Li, Ruifeng Xu

发表机构 * Department of Computing（计算系）； The Hong Kong Polytechnic University（香港理工大学）； The School of Computer Science and Technology（计算机科学与技术学院）； Harbin Institute of Technology (Shenzhen)（哈尔滨工业大学（深圳））

AI总结该研究针对流式对话场景中无限时间跨度下的记忆管理问题，提出了首个用于评估流式记忆能力的基准STEM-Bench，并揭示了现有方法在信息保真与计算效率之间的矛盾。为此，研究设计了ProStream框架，通过分层结构和多粒度知识蒸馏实现按需调用记忆，结合自适应时空优化策略动态调整信息保留，从而在保证推理准确性的前提下显著降低推理延迟，为流式对话系统提供了高效的记忆管理方案。

2603.00574 2026-05-15 cs.CV cs.AI 版本更新

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

Yongbo He, Zirun Guo, Tao Jin

发表机构 * Zhejiang University（浙江大学）

AI总结多模态测试时适配旨在将预训练模型适应于测试时不断变化的数据分布，但现有方法常面临无偏模态的负迁移和有偏模态的灾难性遗忘问题。为此，本文提出了一种名为DASP的诊断-缓解框架，通过分析统一潜在空间中模态间的维度冗余差异，识别出有偏模态并采用非对称适配策略，将每个模态的适配器分为稳定和可塑两部分，分别处理不同模态对稳定性和可塑性的需求，从而在保持通用知识的同时实现对新领域的灵活适应。实验表明，DASP在多个多模态基准上显著优于现有方法。

Comments Accepted to CVPR 2026

2602.23798 2026-05-15 cs.LG cs.AI cs.CR cs.DC 版本更新

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Pengjun Xie, Wei Yang Bryan Lim

发表机构 * College of Computing and Data Science, Nanyang Technological University（南洋理工大学计算与数据科学学院）； Alibaba-NTU Global e-Sustainability CorpLab (ANGEL)（阿里云-南洋理工大学全球可持续发展科技实验室）； Tongyi Lab, Alibaba Group（通义实验室，阿里巴巴集团）

AI总结本文研究了大语言模型中的安全且隐私保护的知识遗忘问题，针对现有方法在隐私约束下难以共享模型参数或遗忘数据集的挑战，提出了一种名为MPU的通用框架。该方法通过引入服务器端的预处理和后处理模块，实现对模型副本的随机扰动和更新聚合，使客户端能够在不访问原始参数的情况下本地执行遗忘操作，同时保证隐私安全。实验表明，MPU在多种遗忘算法中均能保持接近无噪声基线的性能，且在一定噪声水平下甚至表现更优。

2602.20571 2026-05-15 cs.AI 版本更新

CausalReasoningBenchmark: A Real-World Benchmark for Disentangled Evaluation of Causal Identification and Estimation

Ayush Sawarni, Jiyuan Tan, Vasilis Syrgkanis

发表机构 * Stanford University（斯坦福大学）

AI总结该论文提出了一种名为 CausalReasoningBenchmark 的真实世界因果推理基准测试，用于对因果识别与估计能力进行解耦评估。该基准包含来自79篇同行评审论文和三本权威教材的132个真实数据集中的173个查询，要求系统分别生成结构化的因果识别方案和带标准误的点估计，从而区分因果推理错误与数值计算错误。实验表明，当前最先进的语言模型在高层策略识别上表现较好，但在完整识别方案的准确性上显著下降，突显了因果设计细节的重要性。

2602.19533 2026-05-15 cs.LG cs.AI math.RA 版本更新

Grokking Finite-Dimensional Algebra

Pascal Jr Tikeng Notsawo, Guillaume Dumas, Guillaume Rabusseau

发表机构 * Department of XXX, University of YYY, Location, Country（XXX系，YYY大学，地点，国家）； School of ZZZ, Institute of WWW, Location, Country（ZZZ学院，WWW研究所，地点，国家）； CHU Sainte-Justine Research Center, Montréal（圣朱斯特研究中心，蒙特利尔）； CIFAR AI Chair（CIFAR人工智能席位）

AI总结本文研究了神经网络在学习有限维代数（FDA）乘法过程中出现的“grokking”现象，即从长期记忆到泛化的突然转变。作者将分析范围从以往关注的群操作扩展到更一般的代数结构，包括非结合、非交换和非单位代数，并指出群操作的学习是FDA学习的特例。研究揭示了FDA乘法本质上是学习由结构张量定义的双线性乘积，并探讨了代数性质如交换性、结合性对grokking出现时机的影响，以及结构张量的稀疏性和秩对泛化能力的作用，为理解数学结构如何影响神经网络泛化动态提供了统一框架。

Comments 37 pages, 14 figures, Forty-Third International Conference on Machine Learning (ICML), 2026

2602.17949 2026-05-15 cs.CL cs.AI 版本更新

CUICurate: A GraphRAG-based Framework for Automated Clinical Concept Curation for NLP applications

Victoria Blake, Jamie Novak, Mathew Miller, Sze-yuan Ooi, Blanca Gallego

发表机构 * Centre for Big Data Research in Health, University of New South Wales（健康大数据研究中心，新南威尔士大学）； Eastern Heart Clinic, Prince of Wales Hospital（东部心脏诊所，王室医院）； NSW Ambulance Aeromedical Operations, Bankstown Helicopter Base（新南威尔士州急救航空医疗运作，班克stown直升机基地）； Department of Anaesthesia, Saint George Hospital（麻醉科，圣乔治医院）； Department of Cardiology, Prince of Wales Hospital（心内科，王室医院）； School of Clinical Medicine, University of New South Wales（临床医学学院，新南威尔士大学）

AI总结本文提出CUICurate，一个基于图检索增强生成（GraphRAG）的框架，用于自动化构建临床概念集，以支持自然语言处理应用。该方法利用UMLS知识图谱进行语义检索，结合大语言模型对候选概念进行过滤和分类，实现了比手动构建更全面、更一致的临床概念集。实验表明，CUICurate在多个异构临床概念任务中表现出色，生成的集合不仅规模更大，且具有较高的召回率和稳定性，为临床NLP和表型分析提供了高效、可扩展的解决方案。

Comments 6 figures, 4 tables

2602.15249 2026-05-15 cs.DL cs.AI 版本更新

Artificial Intelligence Specialization in the European Union: Underexplored Role of the Periphery at NUTS-3 Level

Victor Herrero-Solana, Carmen Gálvez

发表机构 * SCImago-UGR, Unit for Computational Humanities and Social Sciences (U^CHASS) University of Granada, Spain（SCImago-UGR，计算人文与社会科学单位（U^CHASS）格拉纳达大学，西班牙）

AI总结本研究分析了2015年至2024年间欧洲NUTS-3地区在人工智能领域的研究分布情况，利用引文数据和分类系统，计算了相对专业化指数和相对引用影响力指标。研究发现，尽管巴黎、华沙和马德里等大都市在论文数量上占优，但人工智能领域的相对专业化程度最高的是东欧和西班牙的一些外围地区，如格拉纳达和维尔纽斯地区。研究还揭示了专业化与引用影响力之间关系较弱，不同地区呈现出多样化的发展模式。

Comments 15 pages, 3 figures

2602.15019 2026-05-15 cs.AI cs.IR 版本更新

Hunt Globally: Wide Search AI Agents for Drug Asset Scouting in Investing, Business Development, and Competitive Intelligence

Vlad Vinogradov, Alisa Vinogradova, Luba Greenwood, Ilya Yasny, Dmitry Kobyzev, Shoman Kasbekar, Kong Nguyen, Dmitrii Radkevich, Roman Doronin, Andrey Doronichev

发表机构 * Bioptic

AI总结本文研究了在生物医药投资、业务发展和竞争情报中，如何高效发现非美国来源的潜在药物资产。针对当前AI系统在多语言、异构信息源中召回率低、易产生幻觉的问题，作者提出了一种基于树结构的自学习Bioptic Agent，并构建了一个涵盖多语言、多代理的基准测试平台。实验表明，该方法在资产发现任务中显著优于多个主流大模型，验证了其在完整性和准确性上的优势。

2602.14881 2026-05-15 math.OC cs.AI 版本更新

Numerical exploration of the range of shape functionals using neural networks

Eloi Martinet, Ilias Ftouhi

发表机构 * Institute of Mathematics, University of Würzburg, Germany ； Laboratoire MIPA, N\ imes University, Site des Carmes, Place Gabriel P\'eri, 30000 N\ imes, France

AI总结本文提出了一种基于神经网络的新数值框架，用于探索Blaschke–Santaló图，该图用于描述形状泛函之间的可能不等式关系。通过引入基于规范函数的可逆神经网络结构，实现了对任意维凸集的参数化，并在形状优化过程中保持凸性。为实现图内的均匀采样，作者设计了一种通过自动微分最小化Riesz能量泛函的粒子系统，并在二维和三维凸体的多个几何和偏微分方程型泛函上验证了方法的有效性。

Comments 20 pages, 8 figures

2602.07441 2026-05-15 cs.LG cs.AI 版本更新

Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning

Jinzong Dong, Wei Huang, Jianshu Zhang, Zhuo Chen, Xinzhe Yuan, Qinying Gu, Zhaohui Jiang, Nanyang Ye

发表机构 * School of Automation, Central South University（中南大学自动化学院）； Shanghai AI Laboratory（上海人工智能实验室）； Shanghai Jiao Tong University（上海交通大学）

AI总结本文研究了离线强化学习中行为克隆（BC）正则化策略的局限性，指出当数据集动作次优时，盲目模仿会限制策略的性能提升。为此，作者提出了一种名为近端动作替换（PAR）的方法，通过用更优的动作替换数据集中的次优动作，结合值函数的局部上升方向和不确定性约束，提升训练稳定性。实验表明，PAR能有效提升多种BC正则化方法的性能，并在结合基础TD3+BC时达到先进水平。

2602.07045 2026-05-15 cs.CV cs.AI 版本更新

VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing

Zhiming Luo, Di Wang, Haonan Guo, Jing Zhang, Bo Du

发表机构 * School of Computer Science, Wuhan University（武汉大学计算机学院）

AI总结为了推动多模态大语言模型在遥感领域的应用，研究者提出了首个专注于复杂遥感推理的视觉语言推理基准VLRS-Bench。该基准围绕认知、决策和预测三个核心维度构建，包含2000对问答对，涵盖14项任务和最多八个时间阶段，旨在评估模型在遥感场景下的复杂推理能力。通过融合遥感领域先验知识和专家经验，VLRS-Bench有效提升了任务的地理空间真实性和推理难度，揭示了当前先进模型在该领域的显著瓶颈，为未来研究提供了重要参考。

2602.06718 2026-05-15 cs.CR cs.AI 版本更新

GhostCite: A Large-Scale Analysis of Citation Validity in the Age of Large Language Models

Zuyao Xu, Yuqi Qiu, Lu Sun, Fasheng Miao, Fubin Wu, Xiang Li, Xinyi Wang, Haozhe Lu, Zhengze Zhang, Yuxin Hu, Jialu Li, Luo Jin, Feng Zhang, Rui Luo, Xinran Liu, Yingxian Li, Jiaji Liu

发表机构 * Nankai University（南开大学）； Tsinghua University（清华大学）

AI总结《GhostCite：大语言模型时代引文有效性的大规模分析》研究了大型语言模型（LLMs）在学术写作中广泛使用所引发的引文有效性问题。研究开发了一个开源框架\citeb，用于大规模验证引文，并通过三个实验分析了LLMs生成虚假引文（“幽灵引文”）的现象。研究发现，所有测试的LLMs在不同领域生成引文时都有较高比例的虚构引文，且近年来学术会议论文中的无效引文比例显著上升，同时多数研究者依赖AI工具，但审稿人对引文的审查并不严格，反映出当前学术出版体系在应对这一问题上的不足。

2602.04265 2026-05-15 cs.LG cs.AI 版本更新

Boosting LLM Reasoning via Human-Inspired Reward Shaping

Wenze Lin, Zhen Yang, Xitai Jiang, Xiaoteng Ma, Gao Huang

发表机构 * Tsinghua University（清华大学）； Southern University of Science and Technology（南方科技大学）； Mind Lab

AI总结该研究针对大语言模型（LLM）推理能力提升的问题，提出了一种受人类学习行为启发的动态奖励框架T2T。该方法通过区分问题掌握程度，分别采用“厚化”和“薄化”两个阶段的奖励机制：在错误尝试时鼓励广泛探索，在正确解答后则通过长度惩罚促进推理凝练。实验表明，T2T在多个数学基准测试中显著优于现有方法，有效提升了模型的推理性能。

2602.03814 2026-05-15 cs.AI cs.LG 版本更新

Conformal Thinking: Risk Control for Reasoning on a Compute Budget

Xi Wang, Anushri Suresh, Alvin Zhang, Rishi More, William Jurayj, Benjamin Van Durme, Mehrdad Farajtabar, Daniel Khashabi, Eric Nalisnick

发表机构 * Johns Hopkins University, Baltimore, Maryland, USA（约翰霍普金斯大学，巴尔的摩，马里兰州，美国）； Apple, USA（苹果公司，美国）

AI总结本文研究了如何在计算资源有限的情况下，通过控制推理过程中的风险来提升大语言模型的推理效率。作者提出了一种名为“共形思考”的风险控制框架，通过设定上界和下界阈值，分别在模型自信时停止推理（可能产生错误输出）和提前终止无法解决的实例（可能过早停止），从而在保证风险可控的前提下最小化计算开销。实验表明，该方法在多种推理任务和模型中均能有效提升计算效率，同时满足用户设定的风险目标。

Comments ICMl 2026

2602.01664 2026-05-15 cs.AI cs.LG 版本更新

FlowSteer: Towards Agents Designing Agentic Workflows via Reinforced Progressive Canvas Editing

Mingda Zhang, Wenjin Liu, Tiesunlong Shen, Qika Lin, Rui Mao, Erik Cambria, Xiaoying Tang, Haoran Luo

发表机构 * The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））； Nanyang Technological University（南洋理工大学）； National University of Singapore（新加坡国立大学）

AI总结 FlowSteer 是一种新型智能体设计代理工作流的范式，旨在解决当前工作流构建中依赖人工、缺乏全局反馈和无法在线修复错误等问题。该方法引入了可执行的流程画布环境，通过强化学习逐步进行原子编辑，实现工作流的端到端自动设计。实验表明，FlowSteer 在多个数据集上显著优于现有方法，且支持多种操作符库和大语言模型后端，具有良好的通用性和扩展性。

Comments 51 pages, 6 figures, 5 tables. Project page: http://flowsteer.org/

2602.01359 2026-05-15 cs.LG cs.AI 版本更新

PaAno: Patch-Based Representation Learning for Time-Series Anomaly Detection

Jinju Park, Seokho Kang

发表机构 * Department of Industrial Engineering, Sungkyunkwan University（成均馆大学工业工程系）

AI总结尽管近期时间序列异常检测研究越来越多地采用如Transformer和基础模型等大型神经网络架构，但这些方法计算成本高、内存消耗大，难以应用于实时和资源受限的场景，且在严格评估下性能提升不明显。本文提出了一种基于块的表示学习方法PaAno，该方法通过从时间序列中提取短时域块，并使用1D卷积神经网络将其嵌入为向量表示，结合三元组损失和预训练任务损失进行训练，以捕捉块中的有用时间模式。在推理阶段，通过比较正常块与当前块的嵌入向量计算异常分数，实验表明PaAno在TSB-AD基准测试中表现优异，显著优于包括大型架构在内的现有方法。

Comments Accepted by the 14th International Conference on Learning Representations (ICLR 2026)

2601.21349 2026-05-15 cs.LG cs.AI 版本更新

L2R: Low-Rank and Lipschitz-Controlled Routing for Mixture-of-Experts

Minghao Yang, Ren Togo, Guang Li, Takahiro Ogawa, Miki Haseyama

发表机构 * Hokkaido University（北海道大学）

AI总结本文提出了一种名为L2R的统一路由框架，用于改进混合专家（MoE）模型中的路由机制。L2R通过在共享的低秩潜在路由空间中进行专家分配，并引入饱和内积评分（SIPS）来显式控制路由函数的Lipschitz行为，从而提升路由几何的平滑性和稳定性。此外，L2R还采用参数高效的多锚点路由机制以增强专家的表达能力。实验表明，L2R在语言和视觉任务中均能有效提升路由性能和模型整体表现。

2601.19924 2026-05-15 cs.CL cs.AI cs.LG 版本更新

OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling

Yitian Chen, Cheng Cheng, Yinan Sun, Zi Ling, Dongdong Ge

发表机构 * Shanghai University of Finance and Economics（上海财经大学）； Booth School of Business, University of Chicago（芝加哥大学商学院）； Antai School of Economics and Management, Shanghai Jiao Tong University（上海交通大学安泰经济管理学院）

AI总结本文研究了大语言模型（LLMs）在优化建模领域的性能和可扩展性，提出了一种名为OPT-ENGINE的可扩展基准框架，用于系统评估从线性规划到混合整数规划等经典运筹学问题的自动建模与求解能力。通过该框架，研究发现基于纯文本推理的方法在任务复杂度增加时存在鲁棒性不足的问题，而结合外部计算工具虽能提升局部计算能力，却难以满足全局优化约束。研究进一步指出，当前最先进的求解器集成推理方法在自动构建约束条件方面仍面临主要瓶颈，为下一代优化建模大语言模型的发展提供了明确方向。

Journal ref Proceedings of the 43rd International Conference on Machine Learning, Seoul, South Korea. PMLR 306, 2026

2601.03969 2026-05-15 cs.AI cs.CL 版本更新

Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models

Wei Wu, Liyi Chen, Congxi Xiao, Tianfu Wang, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

发表机构 * University of Science and Technology of China（中国科学技术大学）； Xiaohongshu Inc.（小红书公司）； The Hong Kong University of Science and Technology (Guangzhou)（香港科技大学（广州））

AI总结本文研究了大语言模型在训练过程中因强化学习奖励机制导致的“长度偏移”现象，即模型在简单问题上生成冗余推理内容的问题。为此，作者提出了一种动态异常截断（DOT）方法，在训练时选择性地抑制冗余输出，同时保留对复杂问题的长推理能力。结合辅助KL正则化和预测性动态采样，该方法有效提升了模型的推理效率与性能，实验表明其在多个任务上显著优于现有方法。

Comments Accepted by ACL2026

2601.01972 2026-05-15 cs.CL cs.AI cs.LG 版本更新

Hidden State Poisoning Attacks against Mamba-based Language Models

Alexandre Le Mercier, Chris Develder, Thomas Demeester

发表机构 * IDLab–T2K, Ghent University–imec（IDLab–T2K，根特大学–imec）

AI总结本文研究了针对基于Mamba的状态空间模型（SSMs）的语言模型的隐藏状态中毒攻击（HiSPA），该攻击通过特定的短输入短语不可逆地覆盖模型隐藏状态中的信息，导致其部分遗忘。研究提出了评估模型在遭受HiSPA攻击下信息检索能力的基准RoBench-25，并验证了SSMs在该攻击下的脆弱性，甚至包括最新的混合模型Jamba-1.7-Mini和Nemotron-3-Nano。此外，研究还分析了HiSPA对模型在其他基准上的影响，并提出了可能用于缓解该攻击的隐藏层模式分析方法。

Comments 29 pages, 4 figures

2512.22331 2026-05-15 cs.CV cs.AI 版本更新

The Multi-View Paradigm Shift in MRI Radiomics: Predicting MGMT Methylation in Glioblastoma

Mariya Miteva, Maria Nisheva-Pavlova

发表机构 * Faculty of Mathematics and Informatics – Sofia University St. Kliment Ohridski（数学与信息学系 – 圣克莱门特·奥赫里迪斯大学）

AI总结该研究旨在通过多模态磁共振成像（MRI）数据非侵入性预测胶质母细胞瘤（GBM）中MGMT启动子甲基化状态，这对预后和治疗具有重要意义。为了解决传统单模态和早期融合方法在特征冗余和模态特异性建模方面的不足，作者提出了一种基于变分自编码器（VAE）的多视图潜在表征学习框架，能够在紧凑的概率潜在空间中保留各模态的影像特征并实现晚期融合。实验表明，该方法结合随机森林分类器在测试集上取得了0.77的AUC值，显著优于基线模型和调参后的模型，验证了多视图概率编码在整合互补MRI信息和提升预测性能方面的有效性。

Comments 17 pages, 4 figures

2512.22317 2026-05-15 cs.LG cs.AI cs.CV 版本更新

LangPrecip: Language-Aware Multimodal Precipitation Nowcasting

Xudong Ling, Chaorong Li, Tianxi Huang, Qian Dong, Guiduo Duan

发表机构 * Laboratory of Intelligent Collaborative Computing, University of Electronic Science（智能协同计算实验室，电子科学科技大学）； School of Computer Science（计算机科学学院）； Technology (School of Artificial Intelligence), Yibin University（技术（人工智能学院），宜宾大学）； College of Humanities（人文学院）； General Education, Chengdu Textile College（通识教育，成都纺织学院）

AI总结短时降水临近预报是一个具有高度不确定性和约束不足的时空预测问题，尤其在快速演变的极端天气事件中更为明显。本文提出了一种语言感知的多模态临近预报框架LangPrecip，通过将气象文本作为降水演变的语义运动约束，结合修正流范式，实现了文本与雷达信息在潜在空间中的高效融合。此外，研究还构建了一个包含160k对雷达序列和运动描述的大规模多模态数据集LangPrecip-160k，并在瑞典和MRMS数据集上验证了方法的有效性，显著提升了重降雨情况下的预测性能。

2512.11855 2026-05-15 cs.LG cs.AI 版本更新

Achieving Approximate Symmetry Is Exponentially Easier than Exact Symmetry

Behrooz Tahmasebi, Melanie Weber

发表机构 * Harvard John A. Paulson School of Engineering and Applied Sciences（哈佛大学约翰·A·保罗森工程与应用科学学院）； Harvard University（哈佛大学）

AI总结本文研究了在机器学习中强制对称性与近似对称性的代价差异，提出了“平均复杂度”框架来量化对称性约束的成本。研究发现，在标准条件下，精确对称性需要线性级别的平均复杂度，而近似对称性仅需对数级别的复杂度，两者存在指数级的差距。这一理论结果首次从理论上解释了为何近似对称性在实践中可能更具优势，并为对称性在机器学习中的进一步研究提供了新工具。

Comments 33 pages, 2 figures. Published at ICLR 2026

Journal ref International Conference on Learning Representations (ICLR) 2026

2511.21740 2026-05-15 cs.CL cs.AI 版本更新

A cross-species neural foundation model for end-to-end speech decoding

Yizi Zhang, Linyang He, Chaofei Fan, Tingkai Liu, Han Yu, Trung Le, Jingyuan Li, Scott Linderman, Lea Duncker, Francis R Willett, Nima Mesgarani, Liam Paninski

发表机构 * Columbia University（哥伦比亚大学）； Stanford University（斯坦福大学）； Microsoft（微软公司）； University of Washington（华盛顿大学）

AI总结该论文提出了一种端到端的脑到文本（BIT）框架，旨在通过神经网络直接将神经活动解码为连贯的句子，从而提升脑机接口的通信能力。核心方法是采用跨任务、跨物种预训练的神经编码器，并结合音频大语言模型与对比学习，实现了比传统分阶段方法更低的词错误率。研究不仅在多个基准测试中取得了新的最先进性能，还展示了跨任务泛化能力，为端到端神经解码提供了重要进展。

2511.18903 2026-05-15 cs.LG cs.AI cs.CL 版本更新

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining

Kairong Luo, Zhenbo Sun, Haodong Wen, Xinyu Shi, Jiarui Cui, Chenyi Dang, Kaifeng Lyu, Wenguang Chen

发表机构 * Tsinghua University（清华大学）； Peng Cheng Laboratory（鹏城实验室）

AI总结在基于课程的大型语言模型（LLM）预训练中，高质量数据的利用效率受到学习率衰减策略的限制。本文发现，当使用递减的学习率调度时，按数据质量排序的课程式训练优势会显著减弱。为此，研究提出了两种简单有效的方法：采用更温和的学习率衰减策略，或用模型平均替代学习率衰减，从而在不额外优化数据的情况下提升了模型在多个基准测试中的表现。这一发现为课程式预训练与优化方法的协同设计提供了新思路。

2511.18739 2026-05-15 cs.AI cs.LG stat.ML 版本更新

A Problem-Oriented Taxonomy of Evaluation Metrics for Time Series Anomaly Detection

Kaixiang Yang, Jiarong Liu, Yupeng Song, Shuanghua Yang, Yujue Zhou

发表机构 * School of Artificial Intelligence, Yunnan University（云南大学人工智能学院）； Beijing Normal University – Hong Kong Baptist University（北京师范大学-香港 Baptist大学）

AI总结时间序列异常检测在物联网和物理信息系统中应用广泛，但其评估因应用场景多样和指标假设不同而面临挑战。本文提出了一种面向问题的评估指标分类框架，从解决的具体评估问题出发重新诠释现有指标，将其分为六个维度，涵盖准确性、及时性、标签容忍度、人工审核成本惩罚、抗随机性以及跨数据集可比性等方面。通过实验分析不同场景下指标的行为，量化其区分真实检测与随机噪声的能力，揭示了多数事件级指标具有较强区分力，而部分常用指标对随机分数膨胀较为敏感，强调了评估指标应根据具体任务需求进行选择。

2511.16964 2026-05-15 cs.MA cs.AI cs.DC 版本更新

Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems

Kirill Nagaitsev, Luka Grbcic, Samuel Williams, Costin Iancu

发表机构 * NVIDIA Corporation（NVIDIA公司）； Microsoft Corporation（微软公司）； Ansel et al. ( 2024 )（Ansel等人（2024））； Sabne ( 2020 )（Sabne（2020））； Kerr et al. ( 2017 )（Kerr等人（2017））； Tillet et al. ( 2019 )（Tillet等人（2019））； Spector et al. ( 2024 )（Spector等人（2024））； Ouyang et al. ( 2025 )（Ouyang等人（2025））； Lange et al. ( 2025a（Lange等人（2025a；b））； b )（Li等人（2025））； Li et al. ( 2025 )（METR（2025））； METR ( 2025 )（Andrews和Witteveen（2025））； Andrews and Witteveen ( 2025 )（Baronio等人（2025））； Baronio et al. ( 2025 )（Novikov等人（2025））； Novikov et al. ( 2025 )（Wei等人（2025））； Wei et al. ( 2025 )（Sharma（2025））； Sharma ( 2025 )

AI总结本文研究了如何利用基于大语言模型的多智能体系统优化PyTorch推理性能。通过构建逻辑框架对比不同多智能体优化系统，发现采用以利用为主策略并结合错误修复智能体能取得最佳效果，且优化粒度对性能有显著影响。实验表明，该方法在H100 GPU上实现了比PyTorch Eager平均2.88倍的加速，优于torch.compile的1.85倍。

2511.15408 2026-05-15 cs.CL cs.AI cs.IR cs.MA cs.NE 版本更新

Chinese Short-Form Creative Content Generation via Explanation-Oriented Multi-Objective Optimization

Shanlin Zhou, Xinpeng Wang, Jianxun Lian, Zhenghao Liu, Laks V. S. Lakshmanan, Xiaoyuan Yi, Yongtao Hao

发表机构 * Tongji University（同济大学）； Microsoft Research Asia（微软亚洲研究院）； Northeastern University（东北大学）； University of British Columbia（不列颠哥伦比亚大学）

AI总结该研究针对中文短文本创意内容生成中的挑战，提出了一种基于解释导向的多目标优化方法，以应对个性化约束下生成结果验证困难的问题。研究将任务建模为异构多目标优化问题，同时优化生成内容与解释的可靠性，并设计了无需训练的多智能体框架MAGIC-HMO，通过迭代生成与验证实现优化。实验表明，该方法在中文婴儿命名等任务上显著优于现有模型。

Comments 19 pages,10 figures. Submitted to ACM for possible publication

2511.13397 2026-05-15 cs.CV cs.AI 版本更新

Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)

Nikos Theodoridis, Tim Brophy, Reenu Mohandas, Ganesh Sistu, Fiachra Collins, Anthony Scanlan, Ciaran Eising

发表机构 * Department of Electronic and Computer Engineering, University of Limerick（利默尼克大学电子与计算机工程系）； Data Driven Computer Engineering Research Centre, University of Limerick（利默尼克大学数据驱动计算机工程研究中心）； Lero, The Irish Software Research Centre, University of Limerick（利默尼克大学Lero爱尔兰软件研究中心）； Valeo Vision Systems（瓦莱奥视觉系统）

AI总结本文提出了一种名为Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)的视觉问答基准，用于评估视觉语言模型在交通场景中的感知能力。该基准包含合成数据集和真实场景数据集，并为每个问题标注了目标物体与相机之间的距离，从而能够分析模型在不同距离下的感知性能。该研究为自动驾驶领域中模型的感知能力评估提供了一个新的、有针对性的工具。

Journal ref IEEE Data Descriptions, 2026

详情

DOI: 10.1109/IEEEDATA.2026.3689031

英文摘要

The remarkable progress of Vision-Language Models (VLMs) on a variety of tasks has raised interest in their application to automated driving. However, for these models to be trusted in such a safety-critical domain, they must first possess robust perception capabilities, i.e., they must be capable of understanding a traffic scene, which can often be highly complex, with many things happening simultaneously. Moreover, since critical objects and agents in traffic scenes are often at long distances, we require systems with not only strong perception capabilities at close distances (up to 20 meters), but also at long (30+ meters) range. Therefore, it is important to evaluate the perception capabilities of these models in isolation from other skills like reasoning or advanced world knowledge. Distance-Annotated Traffic Perception Question Answering (DTPQA) is a Visual Question Answering (VQA) benchmark designed specifically for this purpose: it can be used to evaluate the perception systems of VLMs in traffic scenarios using trivial yet crucial questions relevant to driving decisions. It consists of two parts: a synthetic benchmark (DTP-Synthetic) created using a simulator, and a real-world benchmark (DTP-Real) built on top of existing images of real traffic scenes. Additionally, DTPQA includes distance annotations, i.e., how far the object in question is from the camera. More specifically, each DTPQA sample consists of (at least): (a) an image, (b) a question, (c) the ground truth answer, and (d) the distance of the object in question, enabling analysis of how VLM performance degrades with increasing object distance. In this article, we provide the dataset itself along with the Python scripts used to create it, which can be used to generate additional data of the same kind.

URL PDF HTML ☆

赞 0 踩 0

2511.08565 2026-05-15 cs.CL cs.AI cs.CY 版本更新

Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

Davi Bastos Costa, Felippe Alves, Renato Vicente

发表机构 * TELUS Digital Research Hub（TELUS数字研究中心）； Center for Artificial Intelligence and Machine Learning（人工智能与机器学习中心）； Institute of Mathematics, Statistics and Computer Science（数学、统计与计算机科学研究所）； University of São Paulo（圣保罗大学）

AI总结本研究探讨了大型语言模型在扮演特定角色（Persona Role-Play）时的道德反应，引入道德基础问卷（MFQ）构建基准，量化评估模型的道德敏感性和道德鲁棒性。通过两种互补方法分析模型在不同角色下的道德判断变化，发现道德鲁棒性在不同模型家族间差异显著，Claude 家族表现最为鲁棒，而道德敏感性则变化较小，且不受模型家族影响，主要由预训练阶段决定。研究揭示了角色条件对模型道德行为的影响，并提供了不同模型及角色平均的道德基础特征分析。

Comments Added experiments with a logit-based method and now reporting unbounded metrics

详情

英文摘要

Large language models (LLMs) increasingly operate in social contexts, motivating analysis of how they express and shift moral judgments. In this work, we investigate the moral response of LLMs to persona role-play, prompting a LLM to assume a specific character. Using the Moral Foundations Questionnaire (MFQ), we introduce a benchmark that quantifies two properties: moral susceptibility and moral robustness, defined from the variability of MFQ scores across- and within-personas. We estimate these quantities with two complementary procedures, repeated sampling and a logit-based method that directly estimates the rating distributions and enables temperature analysis. We evaluate 15 models across six families: Claude, DeepSeek, Gemini, GPT, Grok, and Llama. The two metrics show qualitatively different patterns. Moral robustness varies by more than an order of magnitude, with a coefficient of variation of about $152\%$, and is explained almost entirely by model family. The Claude family is, by a significant margin, the most robust, about 30 times more so than the lower-performing families (DeepSeek, Grok, and Llama), while Gemini and GPT occupy an intermediate tier. This strong family dependence suggests that robustness is primarily shaped by post-training. Moral susceptibility, by contrast, spans a much narrower range, with a coefficient of variation of about $13\%$, and the most susceptible model is only 1.6 times more susceptible than the least. Unlike robustness, susceptibility shows no clear family dependence, suggesting that it is primarily determined by pre-training. Additionally, we present moral foundation profiles for models without persona role-play and for personas averaged across models. Together, these analyses provide a systematic view of how persona conditioning shapes moral behavior in LLMs and a window into the internal machinery they use to instantiate personas.

URL PDF HTML ☆

赞 0 踩 0

2511.05820 2026-05-15 cs.SE cs.AI 版本更新

From Ranking to Reasoning: Explainable Web API Recommendation via Semantic Reasoning

Zishuo Xu, Dezhong Yao, Yao Wan

发表机构 * School of Software Engineering（软件工程学院）； School of Computer Science and Technology（计算机科学与技术学院）； Huazhong University of Science and Technology（华中科技大学）

AI总结随着Web API数量的快速增长，自动化的API推荐对于高效构建混合应用变得至关重要。现有方法在推荐策略固定、无法适应复杂需求以及缺乏解释性方面存在不足。为此，本文提出WAR-R1框架，结合语义推理与可变规模推荐，通过轻量大语言模型生成推荐API及其自然语言解释，并引入特殊起始和终止标记以支持推荐数量的自适应调整。实验表明，WAR-R1在推荐准确率和解释质量上均优于现有方法，验证了其有效性。

2510.19973 2026-05-15 cs.NI cs.AI 版本更新

A Tutorial on Cognitive Biases in Agentic AI-Driven 6G Autonomous Networks

Hatim Chergui, Farhad Rezazadeh, Merouane Debbah, Christos Verikoukis

发表机构 * i2CAT Foundation（i2CAT基金会）； Hostelworld Group（Hostelworld集团）； Technical University of Catalonia (UPC)（技术大学（加泰罗尼亚））； Khalifa University of Science and Technology（卡里玛大学）； ISI/ATH ； University of Patras（帕特拉大学）

AI总结本文综述了智能体驱动的6G自组织网络中常见的认知偏差问题，分析了这些偏差的分类、数学表达及其在通信系统中的表现，并提出了针对性的缓解策略。通过两个6G网络管理场景的案例验证，研究展示了如何利用本地化大语言模型和改进的记忆机制，有效减少锚定偏差和时间确认偏差，从而提升资源分配效率，实现显著的能耗降低和延迟优化。

Comments 26 pages, 18 figures, 4 tables, link to source code available. Accepted at IEEE OJCOMS

详情

英文摘要

The path to higher network autonomy in 6G lies beyond the mere optimization of key performance indicators (KPIs), requiring systems that perceive and reason over the network environment as it is. This can be achieved through agentic AI, where large language model (LLM)-powered agents utilize multimodal telemetry, memory, and cross-domain negotiation to achieve multi-objective goals. However, deploying such agents introduces cognitive biases inherited from human design, which can severely distort reasoning and actuation. This paper provides a comprehensive tutorial on well-known cognitive biases, detailing their taxonomy, mathematical formulation, emergence in telecom systems, and tailored mitigation strategies. We validate these concepts through two distinct use-cases in 6G management. First, we tackle anchoring bias in inter-slice resource negotiation. To overcome the prohibitive execution delays of cloud-based LLMs, this use-case deploys a locally hosted 1B-parameter model on an RTX A4000 GPU, successfully achieving sub-second inference latencies compatible with near-real-time operations. By replacing fixed heuristic anchors with a Truncated Weibull randomized anchor strategy, the agents dismantle rigid biases, intelligently consume SLA slack, and dynamically double the system-wide energy savings (peaking at 25\%) without violating strict latency limits. Second, we mitigate temporal and confirmation biases in RAN-Edge cross-domain negotiation by designing an unbiased collective memory. By integrating semantic/temporal decay and an inflection bonus that actively highlights past negotiation failures, agents are prevented from over-relying on recent data or repeating past mistakes. Grounding decisions in this richer, debiased historical context yields highly robust agreements, achieving a $\times 5$ latency reduction and roughly 40\% higher energy savings compared to memoryless baselines.

URL PDF HTML ☆

赞 0 踩 0

2510.15982 2026-05-15 cs.LG cs.AI 版本更新

AMiD: Knowledge Distillation for LLMs with $α$-mixture Assistant Distribution

Donghyeok Shin, Yeongmin Kim, Suhyeon Jo, Byeonghu Na, Il-Chul Moon

发表机构 * Korea Advanced Institute of Science and Technology（韩国先进科学研究院）

AI总结本文提出了一种名为AMiD的知识蒸馏方法，用于降低大语言模型的计算和内存成本。该方法引入了基于α混合的辅助分布，通过引入新的分布参数α，扩展了传统辅助分布的适用范围，并构建了一个统一的知识蒸馏框架。实验表明，AMiD在性能和训练稳定性方面优于现有方法，具有更广泛的理论支持和实际应用价值。

Comments The Fourteenth International Conference on Learning Representations (ICLR 2026)

2510.04682 2026-05-15 cs.CL cs.AI 版本更新

TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

Chanjoo Jung, Jaehyung Kim

发表机构 * Yonsei University（延世大学）

AI总结本文提出了一种名为TiTok的新框架，旨在解决LoRA微调参数无法跨不同基础模型迁移的问题。该方法通过在令牌层面进行对比性知识提取，从带有和不带有LoRA的源模型中捕捉任务相关的信息，从而实现高效的LoRA移植。实验表明，TiTok在多个基准测试中表现出色，相比基线方法平均性能提升了4%到10%。

Comments ICLR 2026

2509.26100 2026-05-15 cs.AI 版本更新

AgenticEval: Toward Agentic and Self-Evolving Safety Evaluation of Large Language Models

Yixu Wang, Xin Wang, Yang Yao, Xinyuan Li, Xibang Yang, Yan Teng, Xingjun Ma, Yingchun Wang

发表机构 * Shanghai Artificial Intelligence Laboratory（上海人工智能实验室）； Fudan University（复旦大学）； The University of Hong Kong（香港大学）； East China Normal University（华东师范大学）

AI总结随着大语言模型在高风险领域的广泛应用，现有的静态评估方法已难以应对AI风险的动态变化和法规的持续演进。本文提出了一种新的智能体驱动的安全评估范式AgenticEval，通过多智能体框架自主解析政策文件，持续生成和演化综合性安全基准，并利用自我演进的评估循环不断优化测试用例。实验表明，该方法能够有效揭示传统评估方式难以发现的模型深层次安全漏洞，凸显了动态评估体系在确保AI安全部署中的重要性。

Comments Findings of ACL 2026

2509.23023 2026-05-15 cs.AI 版本更新

Deceive, Detect, and Disclose: Large Language Models Play Mini-Mafia

Davi Bastos Costa, Renato Vicente

发表机构 * TELUS Digital Research Hub（TELUS数字研究中心）； Center for Artificial Intelligence and Machine Learning（人工智能与机器学习中心）； Institute of Mathematics, Statistics and Computer Science（数学、统计与计算机科学研究所）

AI总结本文提出了一种名为 *Mini-Mafia* 的简化版社交推理游戏，用于评估大型语言模型在多智能体交互中的表现。通过分析游戏中欺诈者、侦探和村民之间的互动，研究得出了一个预测欺诈方获胜概率的解析公式，并据此构建了 *Mini-Mafia Benchmark*，能够定量评估模型的欺骗、检测和披露能力。实验表明，该方法在跨模型预测中表现优异，并揭示了一些关于当前主流大模型能力的反直觉结论。

Comments Adds a validation section for the theoretical model and restructures the presentation

2509.22746 2026-05-15 cs.AI cs.CV 版本更新

Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning

Zejun Li, Yingxiu Zhao, Jiwen Zhang, Siyuan Wang, Yang Yao, Runzhou Zhao, Jun Song, Bo Zheng, Zhongyu Wei

发表机构 * Fudan University（复旦大学）； Alibaba Group Holding Limited（阿里巴巴集团控股有限公司）； Future Living Lab of Alibaba（阿里巴巴未来生活实验室）； University of Southern California（南加州大学）； Shanghai Innovation Institute（上海创新研究院）

AI总结当前视觉推理方法主要专注于探索特定的推理模式，虽能在特定领域取得改进，但难以形成通用的推理能力。为此，本文提出了一种新的自适应推理范式——Mixture-of-Visual-Thoughts（MoVT），通过在一个模型中统一不同推理模式，并根据上下文选择合适的模式。研究引入了两阶段的自适应视觉推理框架AdaVaR，利用监督学习进行初始训练，并通过强化学习与精心设计的算法引导模型实现上下文自适应的模式选择，实验表明该方法在多种场景下均能有效提升视觉推理性能。

Comments 27 pages, 11 figures, 5 tables, accepted by ICLR 2026

2508.06226 2026-05-15 cs.AI 版本更新

GeoLaux: A Benchmark for Evaluating MLLMs' Geometry Performance on Long-Step Problems Requiring Auxiliary Lines

Yumeng Fu, Jiayin Zhu, Lingling Zhang, Wenjun Wu, Bo Zhao, Shaoxuan Ma, Yushun Zhang, Jun Liu

发表机构 * School of Computer Science and Technology, Xi’an Jiaotong University（西安交通大学计算机科学与技术学院）； Ministry of Education Key Laboratory of Intelligent Networks and Network Security, China（教育部智能网络与网络安全重点实验室）； Shaanxi Province Key Laboratory of Big Data Knowledge Engineering, China（陕西省大数据知识工程重点实验室）； School of Software Engineering, Xi’an Jiaotong University（西安交通大学软件工程学院）

AI总结 GeoLaux 是一个用于评估多模态大语言模型（MLLMs）在需要辅助线构造的长步骤几何问题上表现的细粒度基准数据集，包含2186个计算与证明问题，平均解题步骤达6.51步，其中41.8%的问题需要辅助线构造。基于该数据集对23个主流MLLMs进行五维评估，研究发现模型在长步骤问题上的表现明显下降，辅助线理解能力不足是影响几何推理的关键因素，同时有限的答案提示有助于提升推理过程的正确性。GeoLaux 为评估和提升 MLLMs 的几何推理能力提供了重要参考。

Comments 26 pages, 24 figures

2508.06202 2026-05-15 cs.CV cs.AI 版本更新

LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning

Chang Che, Ziqi Wang, Pengwan Yang, Qi Wang, Hui Ma, Zenglin Shi

发表机构 * Hefei University of Technology（合肥工业大学）； University of Amsterdam（阿姆斯特丹大学）； Tsinghua University（清华大学）

AI总结持续视觉指令微调（CVIT）使多模态大语言模型能够逐步学习新任务，但面临灾难性遗忘的问题。为解决这一挑战，本文提出了一种高效的架构扩展方法LiLoRA，通过共享LoRA矩阵A并引入对矩阵B的低秩分解，显著减少了参数开销，并结合余弦正则化稳定性损失以保持表示的一致性。实验表明，LiLoRA在多个CVIT基准上实现了更优的性能，同时提升了参数效率。

Comments AAAI 2026 Oral Presentation. 9 pages

Journal ref Proceedings of the AAAI Conference on Artificial Intelligence, 40(24):19978--19986, 2026

2508.01916 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning

Xinting Huang, Michael Hahn

发表机构 * Saarland University（萨尔兰大学）

AI总结本文研究如何通过无监督学习将神经网络的表示空间分解为具有可解释性的子空间。作者提出了一种名为邻居距离最小化（NDM）的方法，能够在不依赖标签的情况下学习出与模型内部概念对齐的子空间。实验表明，这些子空间能够捕捉到输入中的抽象概念，并在GPT-2等模型中与已知的电路变量存在强关联，为理解模型内部结构提供了新视角。

Comments Published as a conference paper at ICLR 2026

2507.21433 2026-05-15 cs.LG cs.AI 版本更新

ReasonCache: Accelerating Large Reasoning Model Serving through KV Cache Sharing

Kaiwen Chen, Xin Tan, Minchen Yu, Jingzong Li, Hong Xu

发表机构 * The Chinese University of Hong Kong（香港中文大学）； The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））； The Hang Seng University of Hong Kong（恒生大学）

AI总结大型推理模型（LRMs）在许多AI推理系统中发挥着关键作用，但其在生产环境中的部署面临服务质量（QoS）挑战，主要表现为长序列推理过程带来的高内存开销，限制了吞吐量并增加了延迟。为此，本文提出ReasonCache，一种基于协同过滤算法的KV缓存管理方法，通过识别和复用相似的中间推理步骤对应的KV缓存块，实现零拷贝缓存复用，显著提升了推理效率。实验表明，ReasonCache在保持较高准确率的同时，峰值吞吐量提升了89.2%，平均提升达40-60%，有效提高了AI推理服务的响应速度和成本效益。

Comments 10 pages, 7 figures

2507.13941 2026-05-15 q-bio.NC cs.AI cs.CV eess.IV 版本更新

Shared representations in brains and models reveal a two-route cortical organization during scene perception

Pablo Marcos-Manchón, Lluís Fuentemilla

发表机构 * Department of Cognition, Development and Education Psychology, Faculty of Psychology, University of Barcelona（认知、发展与教育心理学系，心理学学院，巴塞罗那大学）； Institute of Neurosciences, University of Barcelona（神经科学研究所，巴塞罗那大学）； Bellvitge Institute for Biomedical Research（Bellvitge生物医学研究 institute）

AI总结该研究通过分析7T fMRI数据，探讨了人类大脑在场景感知过程中信息的组织与传递路径。研究利用表征相似性分析，比较了个体间共享的脑区表征结构与视觉和语言神经网络的层次特征，发现大脑存在两条分离的处理通路：一条负责场景布局与环境背景，另一条专门处理生物内容。这一发现深化了对视觉信息处理的经典模型，揭示了场景感知是一个由多个可区分表征路径组成的分布式脑网络。

Comments for associate code, see https://github.com/memory-formation/convergent-transformations

2506.16608 2026-05-15 cs.LG cs.AI 版本更新

Distributions as Actions: A Unified Framework for Diverse Action Spaces

Jiamin He, A. Rupam Mahmood, Martha White

发表机构 * Department of Computing Science University of Alberta（计算科学系阿尔伯塔大学）； Alberta Machine Intelligence Institute (Amii)（阿尔伯塔机器智能研究所（Amii））； CIFAR AI Chair, Amii（CIFAR人工智能主席，Amii）

AI总结本文提出了一种新的强化学习框架，将参数化的动作分布视为动作，重新定义了智能体与环境之间的边界。该方法通过重参数化使动作空间变为连续空间，适用于离散、连续或混合类型的动作。研究还提出了一种通用的确定性策略梯度估计器DA-PG以及基于TD3的实用演员-评论家算法DA-AC，实验表明其在多种控制任务中表现出良好的性能。

Comments Accepted to ICLR 2026 (camera-ready)

2505.09246 2026-05-15 cs.IR cs.AI cs.CL 版本更新

Autofocus Retrieval: An Effective Pipeline for Multi-Hop Question Answering With Semi-Structured Knowledge

Derian Boer, Stephen Roth, Stefan Kramer

发表机构 * Institute of Computer Science（计算机科学研究所）； Johannes Gutenberg University Mainz（美因茨约翰内斯·古腾堡大学）

AI总结本文提出了一种基于半结构化知识库的多跳问答框架Autofocus-Retriever（AF-Retriever），旨在有效结合结构化和非结构化信息进行问答。该方法通过引入可交换的大语言模型提取实体属性和关系约束，并结合向量相似度搜索与增量范围扩展策略，实现了在多个基准测试中优于现有方法的零样本和少样本性能。其核心贡献在于通过四步约束驱动的检索与四步补充排序流程，显著提升了答案检索的准确性和鲁棒性。

Journal ref Transactions on Machine Learning Research 2026

2505.01584 2026-05-15 cs.LG cs.AI 版本更新

Silent Neuron Theory and Plasticity Preservation for Deep Reinforcement Learning in Adaptive Video Streaming

Zhiqiang He, Zhi Liu

发表机构 * Department of Computer and Network Engineering, the University of Electro-Communications, Japan（电子通信大学计算机与网络工程系，日本）

AI总结本文研究了深度强化学习在自适应视频流中的应用，针对实际网络带宽异质性导致的模型泛化能力不足问题，提出了“静默神经元理论”以更准确地刻画神经网络的可塑性退化现象。基于该理论，作者设计了Reset Silent Neuron（ReSiN）方法，通过结合前向和后向传播状态的策略性神经元重置，有效保持网络可塑性，从而提升模型在非稳态网络环境下的适应能力。实验表明，ReSiN在比特率和QoE指标上显著优于现有方法，且在不同网络条件下均表现出良好的鲁棒性。

2504.18544 2026-05-15 cs.LG cs.AI cs.CY 版本更新

Critical Challenges and Guidelines in Evaluating Synthetic Tabular Data: A Systematic Review

Nazia Nafis, Inaki Esnaola, Alvaro Martinez-Perez, Maria-Cruz Villa-Uriol, Venet Osmani

发表机构 * Healthy Lifespan Institute, School of Computer Science, University of Sheffield（健康寿命研究所，计算机科学学院，谢菲尔德大学）； School of Electrical and Electronic Engineering, University of Sheffield（电子与电气工程学院，谢菲尔德大学）； Healthy Lifespan Institute, School of Sociological Studies, Politics and International Relations, University of Sheffield（健康寿命研究所，社会科学学院，政治与国际关系，谢菲尔德大学）； Digital Environment Research Institute, Queen Mary University of London（数字环境研究 institutes，伦敦女王大学）

AI总结该论文系统回顾了近年来合成表格健康数据生成与评估领域的研究，指出了当前在评估方法上缺乏共识、指标应用不一致、领域专家参与不足等关键挑战。为应对这些问题，研究提出了结构化的分类框架和实用评估指南，旨在推动更严谨、标准化的评估实践，促进合成健康数据的负责任开发与应用。

Comments 32 pages

2504.11703 2026-05-15 cs.CR cs.AI 版本更新

Progent: Securing AI Agents with Privilege Control

Tianneng Shi, Jingxuan He, Zhun Wang, Hongwei Li, Linyu Wu, Wenbo Guo, Dawn Song

发表机构 * UC Berkeley（加州大学伯克利分校）； UC Santa Barbara（加州大学圣巴巴拉分校）； National University of Singapore（新加坡国立大学）

AI总结 AI代理通过调用工具与外部环境交互，容易受到如间接提示注入等攻击，导致未经授权的操作。为此，本文提出Progent框架，通过特权控制机制增强AI代理的安全性。Progent将特权表示为基于工具名称和参数的符号化安全策略，通过确定性过程检查每个工具调用，确保最小特权原则。该框架利用大型语言模型自动生成并动态更新策略，并结合SMT求解器保证策略更新的单调性，从而在保障实用性的前提下有效防止权限升级，实验表明其在多个基准测试中显著降低了攻击成功率。

2504.01571 2026-05-15 cs.GR cs.AI cs.CV cs.LG 版本更新

Pro-DG: Procedural Diffusion Guidance for Architectural Facade Generation

Aleksander Plocharski, Jan Swidzinski, Przemyslaw Musialski

发表机构 * Warsaw University of Technology（华沙技术大学）； Akces NCBR ； Imperial College London（伦敦帝国理工学院）； New Jersey Institute of Technology（新泽西理工学院）

AI总结本文提出了一种基于过程化扩散引导（Pro-DG）的建筑立面生成方法，通过在稳定扩散框架中引入分层过程化规则生成控制图，从而生成逼真的建筑立面图像。该方法从单张输入图像及其分割结果出发，利用逆过程模块识别立面的分层布局，并结合结构特征设计了一种新的ControlNet流程，实现由过程化变换引导的立面图像生成。该方法能够精确控制局部外观并进行大规模结构编辑，实验表明其在保持建筑风格和实现可控编辑方面优于现有方法。

Comments 17 pages, 15 figures, Computer Graphics Forum 2026 Journal Paper

2410.03280 2026-05-15 eess.AS cs.AI cs.LG eess.SP 版本更新

Manikin-Recorded Cardiopulmonary Sounds Dataset Using Digital Stethoscope

Yasaman Torabi, Shahram Shirani, James P. Reilly

发表机构 * Electrical and Computer Engineering Department, McMaster University（麦斯特大学电气与计算机工程系）

AI总结该研究提出了一种使用数字听诊器录制的心肺声音数据集，包含正常及多种异常心肺音，如杂音、心律失常和呼吸音等。数据集通过临床模拟人采集，涵盖了不同身体部位的单独和混合声音，并经过频率滤波处理以增强特定声音类型。该数据集为人工智能在心肺疾病自动检测、声音分类及深度学习等领域的研究提供了重要的资源。

Journal ref IEEE Data Descriptions, vol. 2, pp. 133-140, 2025

2410.02091 2026-05-15 cs.SE cs.AI cs.HC econ.GN q-fin.EC 版本更新

The Impact of Generative AI on Collaborative Open-Source Software Development: Evidence from GitHub Copilot

Fangchen Song, Ashish Agarwal, Wen Wen

发表机构 * University of Texas at Austin（德克萨斯大学奥斯汀分校）

AI总结本研究探讨了生成式人工智能（AI）对协作式开源软件（OSS）开发的影响，重点分析了GitHub Copilot这一AI编程助手在GitHub开源项目中的实际作用。研究发现，使用Copilot可使项目层面的代码贡献量提升5.9%，主要源于开发者参与度和个体生产力的提高，但同时也带来了8%的协调时间增加。研究还指出，AI对核心开发者和外围开发者的影响存在差异，为理解AI在开源社区中的长期影响提供了重要参考。

2409.10038 2026-05-15 cs.CL cs.AI cs.LG 版本更新

On the Diagram of Thought

Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

发表机构 * IIIS Tsinghua University（清华大学人工智能研究院）； Shanghai Qi Zhi Institute（上海启智研究院）

AI总结大型语言模型（LLMs）在许多任务中表现出色，但在需要结构化、多步骤推理的复杂问题上表现不佳。本文提出了一种名为“思维图谱”（Diagram of Thought, DoT）的框架，使单个LLM能够构建和导航其推理过程的思维地图，通过动态构建思想图谱，模型可以提出不同的推理路径、自我批评并整合验证后的见解形成最终结论。该方法无需外部搜索算法或规划器，仅依赖于确定性的在线验证器，并基于范畴论的数学框架，为LLM的结构化推理过程提供了可审计的步骤追踪和语义保证。

Comments 30 pages

2408.16307 2026-05-15 cs.RO cs.AI 版本更新

Safe Bayesian Optimization for Complex Control Systems via Additive Gaussian Processes

Hongxuan Wang, Xiaocong Li, Lihao Zheng, Adrish Bhaumik, Prahlad Vadakkepat

发表机构 * National University of Singapore（新加坡国立大学）； SIMTech, A*STAR ； CUHK, Shenzhen（香港中文大学（深圳））

AI总结本文提出了一种名为 SafeCtrlBO 的安全贝叶斯优化方法，用于同时调整多级耦合控制器的参数，以解决复杂控制系统的安全优化问题。该方法通过使用加法高斯过程核来捕捉控制器增益之间的低阶结构，从而降低样本复杂度，并采用基于边界的扩展规则替代传统方法中的高计算成本步骤，以保证在硬件实验中的安全约束。实验表明，SafeCtrlBO 在减少硬件评估次数的同时，能够有效达到高性能控制器参数，并保持高概率安全性和硬信号安全约束的满足。

Comments The shorter version has been accepted by IEEE Robotics and Automation Letters. This is the full version

2303.14511 2026-05-15 hep-ex cs.AI cs.LG hep-ph physics.data-an 版本更新

Improving robustness of jet tagging algorithms with adversarial training: exploring the loss surface

Annika Stein

发表机构 * Center for Theoretical Physics, Sloane Physics Laboratory, Yale University（理论物理中心，斯洛恩物理实验室，耶鲁大学）； III. Physics Institute A, RWTH Aachen University（物理研究所A，亚琛工业大学）

AI总结本文研究了如何通过对抗训练提高高能物理中喷注分类算法的鲁棒性，重点分析了输入特征微小扰动对模型性能的影响。作者通过探索损失函数的几何结构，揭示了模型在面对系统性不确定性时的稳健性机制，并提出了一种在保持高性能的同时增强模型鲁棒性的对抗训练方法。

Comments 5 pages, 2 figures; submitted to ACAT 2022 proceedings

Journal ref 2026 J. Phys.: Conf. Ser. 3206 012085

2605.14177 2026-05-15 cs.IR cs.AI cs.CL 版本更新

Thinking Ahead: Prospection-Guided Retrieval of Memory with Language Models

Harshita Chopra, Krishna Kant Chintalapudi, Suman Nath, Ryen W. White, Chirag Shah

发表机构 * University of Washington（华盛顿大学）； Microsoft Research（微软研究院）

AI总结本文研究了如何通过前瞻思维引导语言模型从长期对话历史中检索用户特定的事实，以提升个性化对话系统的性能。为了解决传统检索方法依赖语义相似度而难以发现远距离相关事实的问题，作者提出了基于前瞻引导的检索方法（PGR），通过构建可能的未来步骤作为检索探针，从而更有效地挖掘用户历史中相关但不易被传统方法发现的记忆。实验表明，该方法在多个基准测试中显著提升了检索效果和响应质量。

Comments Preprint

详情

英文摘要

Long-horizon personalization requires dialogue assistants to retrieve user-specific facts from extended interaction histories. In practice, many relevant facts often have low semanticsimilarity to the query under dense retrieval. Standard Retrieval-Augmented Generation (RAG) and GraphRAG systems are still largely retrospective: they rely on embedding similarity to the query or on fixed graph traversals, so they often miss facts that matter for the user's needs but lie far from the query in embedding space. Inspired by prospection, the human ability to use imagined futures as cues for recall, we introduce Prospection-Guided Retrieval (PGR), which decouples retrieval from how memories are stored. Given a user query, PGR first expands the goal into a short Tree-of-Thought (ToT) or linear chain of plausible next steps, and uses these steps as retrieval probes rather than relying on the original query alone. The facts retrieved by these probes are then used to personalize the next round of prospection, enabling PGR to uncover additional memories that become relevant only after the simulation is grounded in the user's history. We also introduce MemoryQuest, a challenging multi-session benchmark in which each query is annotated with 3--5 dated reference facts subject to a low query-reference similarity constraint. Across 1,625 queries spanning 185 user profiles from 3 publicly available datasets, PGR-TOT substantially improves retrieval, including nearly 3x recall on MemoryQuest over the strongest baseline. In pairwise LLM-as-judge comparisons against baselines, PGR-generated responses are preferred on 89--98% of queries, with blinded human annotations on held-out subsets showing the same trend. Overall, the results demonstrate that explicit prospection yields large gains in long-horizon retrieval and response quality relative to similarity-only baselines.

URL PDF HTML ☆

赞 0 踩 0

2605.14175 2026-05-15 cs.AI 版本更新

Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations

Qisong He, Yi Dong, Xiaowei Huang

发表机构 * School of Computer Science and Informatics, University of Liverpool, UK（利兹大学计算机科学与信息学学院）

AI总结本文提出了一种名为 Grounded Continuation 的运行时验证器，用于检测大型语言模型在长对话中生成的回复是否基于当前对话上下文中的有效前提。该方法通过构建显式的依赖图，将每轮对话归类为不同形式的逻辑操作，并记录主张与证据之间的依赖关系，从而在常数时间内验证回复的合理性并追踪不支持的结论。实验表明，该验证器在多个基准测试中优于仅依赖语言模型或检索增强的基线方法，尤其在检测过时前提方面表现出色，验证了其在逻辑严谨性和实际应用中的有效性。

2605.14167 2026-05-15 cs.AI cs.CY 版本更新

The Evaluation Trap: Benchmark Design as Theoretical Commitment

Theodore J Kalaitzidis

发表机构 * Brown University（布朗大学）

AI总结该论文探讨了AI基准测试中隐含的理论假设如何影响对能力评估的定义与进展方向，指出当这些假设未经审视时，基准测试会固化主流范式并限制对能力的真正理解。文章提出了一种名为“Epistematics”的方法论，用于从技术能力声明中直接推导评估标准，并检验基准测试是否能区分真实能力与表面行为。其核心贡献在于提供了一套元评估框架，包括评估流程、失败模式分类及基准设计准则，以提升评估与目标能力之间的一致性。

Comments 13 pages

2605.14164 2026-05-15 cs.AI 版本更新

Unsteady Metrics and Benchmarking Cultures of AI Model Builders

Stefan Baack, Christo Buschek, Maty Bohacek

发表机构 * Independent Researcher（独立研究者）； Stanford University（斯坦福大学）

AI总结该研究探讨了基础模型和生成式AI模型构建者在评估模型能力时所依赖的基准测试文化，发现其主要依据已从学术论文转向公司发布的新闻稿和博客，这些内容成为定义当前技术水平的重要依据。研究通过构建并开源Benchmarking-Cultures-25数据集，分析了2025年11家主要AI公司发布的139个模型中所强调的231个基准，揭示了当前评估体系碎片化、跨模型可比性低的问题，并提出统一分类框架以解析不同模型构建者对基准能力的异质化描述。

详情

英文摘要

The primary way to establish and compare competencies in foundation and generative AI models has shifted from peer-reviewed literature to press releases and company blog posts, where model builders highlight results on selected benchmarks. These artifacts now largely define the state of the art for researchers and the public. Despite their prominence, which benchmarks model builders choose to highlight, and what they communicate through this selection, is underexamined. To investigate, we introduce and open-source Benchmarking-Cultures-25, a dataset of 231 benchmarks highlighted across 139 model releases in 2025 from 11 major AI builders, alongside an interactive tool to explore the data. Our analysis reveals a fragmented evaluation landscape with limited cross-model comparability: 63.2% of highlighted benchmarks are used by a single builder, and 38.5% appear in just one release. Few achieve widespread use (e.g., GPQA Diamond, LiveCodeBench, AIME 2025). Moreover, benchmarks are attributed different competencies by different builders, depending on their narrative. To disentangle these conflicting presentations, we develop a unified taxonomy mapping diverging terminology to a shared framework of measured signals based on what benchmark authors claim to measure. "General knowledge application" is the second most popular, yet vaguely defined, category. Qualitative analysis shows many such benchmarks deemphasize construct validity, instead framing results as indicators of progress toward AGI. Their authors claim to measure knowledge or reasoning broadly, yet mostly evaluate STEM subjects (especially math). We argue that highlighted benchmarks function less as standardized measurement tools and more as flexible narrative devices prioritizing market positioning over scientific evaluation. Data: https://hf.co/datasets/matybohacek/benchmarking-cultures-25; tool: https://bench-cultures.net.

URL PDF HTML ☆

赞 0 踩 0

2605.14163 2026-05-15 cs.AI 版本更新

Agentic Systems as Boosting Weak Reasoning Models

Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti

发表机构 * Texas A&M University（德克萨斯A&M大学）； MIT（麻省理工学院）

AI总结本文研究如何通过组合多个弱推理模型的输出，达到强模型的性能。核心方法是引入验证者支持的委员会搜索机制，在推理时通过提案、批评和比较模块协同工作，提升整体推理能力。研究证明，仅靠增加模型数量不足以提升性能，还需结合局部正确性信号，如执行、类型检查等，以确保选择的有效性。实验表明，通过合理设计的机制，弱模型组合可达到与强模型相当的性能，主要挑战在于如何从提案中有效筛选出正确解。

2605.14153 2026-05-15 cs.CR cs.AI 版本更新

ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents

Seunghyun Lee, David Brumley

发表机构 * Carnegie Mellon University（卡内基梅隆大学）； Bugcrowd

AI总结本文提出ExploitBench，一个用于评估大语言模型（LLM）在网络安全领域能力的分级基准，将漏洞利用过程分解为16个可衡量的阶段，从代码崩溃到完全控制目标系统。该基准通过确定性验证机制，准确评估模型在不同阶段的表现。实验基于41个V8漏洞进行，结果显示当前公开部署的前沿模型在触发漏洞和崩溃方面表现良好，但在实现任意代码执行等高级能力上仍有明显不足，而私有模型则表现出更强的利用能力。

2605.14152 2026-05-15 cs.CL cs.AI cs.CR cs.CY 版本更新

ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety

Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

发表机构 * Scale AI

AI总结本文提出ROK-FORTRESS，一个用于评估大型语言模型在国家安全与公共安全领域风险的双语基准，聚焦于英韩语言对及美韩地缘政治背景下的交互影响。通过构建“转译矩阵”，该方法分离语言和地缘政治因素，系统评估模型在不同语言和实体背景下的安全响应行为。研究发现，韩国语言和地缘政治背景的结合对模型安全行为有显著影响，且不同模型对此的反应存在差异，表明传统仅依赖翻译的评估方式可能低估了语言与地缘政治交互带来的风险。

Comments 16 pages main body + appendix (63 total), 5 main figures, 4 main tables; dataset at https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public

2605.14141 2026-05-15 cs.AI 版本更新

Distribution-Aware Algorithm Design with LLM Agents

Saharsh Koganti, Priyadarsi Mishra, Pierfrancesco Beneventano, Tomer Galanti

发表机构 * Texas A&M University（德克萨斯大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结本文研究了在学习对象为可执行求解器代码而非预测模型的场景下的学习问题，强调求解器不仅要正确，还需在运行时间上表现优异。研究提出了一种名为“求解器提示”的核心抽象，通过从样本中推断可复用的结构并编译为专用求解器代码，从而提升求解效率和质量。实验表明，基于大语言模型的代码代理生成的求解器在多个组合优化问题上显著优于现有启发式方法和求解器，运行速度提升达数百倍，且在保持较高解质量的同时大幅降低计算复杂度。

2605.14126 2026-05-15 cs.LG cs.AI 版本更新

Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)

Marius S. Knorr, Robert Müller, Jan P. Bremer, Nils Schweingruber

发表机构 * IDM gGmbH, University Medical Center Hamburg-Eppendorf, Hamburg, Germany（IDM公司，汉堡埃彭多夫大学医疗中心，德国汉堡）

AI总结本文研究了在Fast Healthcare Interoperability Resources（FHIR）标准下，如何通过强化学习提升医疗信息代理的多步骤推理能力。作者将FHIR中的电子健康记录建模为可查询的结构化图，并设计了一个基于代码操作的多轮代理，通过强化学习进行后训练，以提高其在真实医院数据上的问答性能。实验表明，该方法在FHIR-AgentBench基准上显著提升了答案正确率，并有效保证了数据完整性约束。

2605.14117 2026-05-15 cs.CL cs.AI 版本更新

Generative Floor Plan Design with LLMs via Reinforcement Learning with Verifiable Rewards

Luis Lara, Aristides Milios, Zhi Hao Luo, Aditya Sharma, Ge Ya Luo, Christopher Beckham, Florian Golemo, Christopher Pal

发表机构 * Mila – Quebec AI Institute（魁北克人工智能研究所）； Université de Montréal（蒙特利尔大学）； Polytechnique Montréal（蒙特利尔理工学院）； Canada CIFAR AI Chair（加拿大CIFAR人工智能主席）

AI总结该研究提出了一种基于大语言模型（LLM）并通过可验证奖励强化学习（RLVR）优化的文本生成式平面图设计方法，旨在生成符合用户定义的连接性和数值约束的高质量平面图。通过在真实平面图上微调LLM，并结合约束遵从度指标进行优化，该方法在现实感、兼容性和多样性方面均优于现有方法，尤其在兼容性指标上实现了至少94%的相对提升，展示了LLM在处理结构化设计约束方面的有效性。

Comments Accepted to Findings of ACL 2026

2605.14111 2026-05-15 cs.AI cs.HC 版本更新

Modeling Bounded Rationality in Drug Shortage Pharmacists Using Attention-Guided Dynamic Decomposition

Yaniv Eliyahu Amiri, Noah Chicoine, Jacqueline Griffin, Stacy Marsella

发表机构 * Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA（东北大学科里学院计算机科学系，波士顿，马萨诸塞州，美国）； Department of Mechanical and Industrial Engineering, Northeastern University, Boston, MA, USA（东北大学机械与工业工程系，波士顿，马萨诸塞州，美国）； Department of Psychology, Northeastern University, Boston, MA, USA（东北大学心理学系，波士顿，马萨诸塞州，美国）

AI总结本文研究了医院药师在药品短缺情况下如何在不确定、时间压力和患者风险下做出决策的问题，提出了一种基于注意力引导的动态分解框架，将药品分为高成本推理和低成本监控两类，以有限理性方式进行决策。研究构建了专家代理和学习代理两个模型，分别基于药师访谈和经验动态调整注意力分配，实验表明该方法能够在不完全掌握状态信息的情况下实现稳定的决策，揭示了决策的核心不在于具体行动，而在于认知资源的合理分配。

Comments Accepted at CogSci 2026. 6 pages plus references, 1 figure, 2 tables

2605.14108 2026-05-15 cs.CV cs.AI cs.LG 版本更新

Bridging the Rural Healthcare Gap: A Cascaded Edge-Cloud Architecture for Automated Retinal Screening

Nishi Doshi, Shrey Shah

发表机构 * University of Southern California（南加州大学）

AI总结该研究针对农村地区糖尿病视网膜病变（DR）筛查资源不足的问题，提出了一种边缘-云端级联架构，以提高筛查效率并降低云端计算负担。该架构分为两层：第一层使用轻量级的MobileNetV3-small模型在本地设备上进行二分类分诊，判断是否需要转诊；第二层在云端使用RETFoundDINOv2模型对需转诊的图像进行细粒度严重程度分级。实验表明，该方法在APTOS数据集上显著减少了云端调用次数，同时保持了较高的筛查准确性。

2605.14089 2026-05-15 cs.AI 版本更新

SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration

Mingda Zhang, Tiesunlong Shen, Haoran Luo, Wenjin Liu, Zikai Xiao, Erik Cambria, Xiaoying Tang

发表机构 * The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））； National University of Singapore（新加坡国立大学）； Nanyang Technological University（南洋理工大学）； Zhejiang University（浙江大学）

AI总结 SkillFlow 是一种基于流模型的框架，旨在解决智能体编排中的关键挑战，如策略崩溃、信用分配不透明和技能演化缺乏指导。该方法通过可训练的监督器与结构化环境进行多轮交互，结合温差轨迹平衡损失实现多样化的策略保持与透明的信用分配，并引入递归技能演化机制以自主决定技能的生成、剪枝与改进。实验表明，SkillFlow 在多个任务上显著优于现有方法。

Comments 49 pages, 5 figures, 6 tables

2605.14073 2026-05-15 cs.LG cs.AI 版本更新

AttnGen: Attention-Guided Saliency Learning for Interpretable Genomic Sequence Classification

Rayhaneh Shabani Nia, Ali Karkehabadi

发表机构 * University of California, Davis（加州大学戴维斯分校）

AI总结本文提出了一种名为 AttnGen 的注意力引导训练框架，旨在提升基因组序列分类模型的可解释性。该方法通过注意力机制计算核苷酸层面的重要性评分，并在训练过程中逐步抑制低贡献位置，使模型更关注具有信息量的区域，减少对噪声序列元素的依赖。实验表明，AttnGen 在标准基准数据集上取得了优于传统卷积神经网络的分类性能，并通过扰动分析验证了其重要性评分的有效性，展示了模型对一小部分关键位置的高度依赖。

Comments Accepted at IEEE CCGE 2026

2605.14066 2026-05-15 eess.AS cs.AI cs.CL cs.SD 版本更新

A Benchmark for Early-stage Parkinson's Disease Detection from Speech

Terry Yi Zhong, Cristian Tejedor-Garcia, Khiet P. Truong, Janna Maas, Louis ten Bosch, Bastiaan R. Bloem

发表机构 * Centre for Language Studies, Radboud University, Nijmegen, the Netherlands（语言研究所以及拉德堡德大学，尼姆egen，荷兰）； Center of Expertise for Parkinson and Movement Disorders, Radboud University Medical Center, Nijmegen, the Netherlands（帕金森及运动障碍专家研究所，拉德堡德大学医学中心，尼姆egen，荷兰）

AI总结该研究提出首个用于基于语音的早期帕金森病检测的基准，旨在解决现有研究因数据集、语言、任务和评估方式不同而导致的结果难以比较的问题。该基准采用说话人无关划分，支持在公开数据集上进行公平且可复现的跨方法评估，并涵盖三种常见语音任务，同时在不同训练资源条件下对方法进行测试。研究还提供了多维度的评估分析，助力细粒度比较与临床应用，为推动鲁棒且具有临床意义的早期帕金森病检测提供了可复用的参考。

Comments Submitted to Interspeech2026

2605.14062 2026-05-15 cs.AI cs.CL 版本更新

Know When To Fold 'Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection

Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan

发表机构 * Department of Computer Science University of Houston（计算机科学系休斯顿大学）； IBM Research（IBM研究院）

AI总结本文提出了一种名为MSIFR的轻量级框架，用于在生成过程中及时检测并终止低质量的生成轨迹，从而减少大语言模型合成数据生成中的冗余计算。该方法通过分阶段生成和快速规则验证，在生成早期识别算术错误、幻觉和格式问题，实现对无效样本的提前拒绝。实验表明，MSIFR在不增加训练或架构改动的前提下，显著降低了生成过程中的token消耗，同时保持或提升了生成数据的质量。

Comments 17 pages, 4 figures, 7 tables

2605.14061 2026-05-15 cs.AI cs.LG 版本更新

MathAtlas: A Benchmark for Autoformalization in the Wild

Nilay Patel, Noah Arias, Davit Babayan, Victoria Cochran, Timothy Libman, Hafsah Mahmood, Liam McCarty, Soli Munoz, Laurel Willey, Jeffrey Flanigan

发表机构 * University of California, Santa Cruz（加州大学圣克ruz分校）

AI总结当前自动形式化基准主要聚焦于竞赛或本科数学内容，而研究生及研究级数学领域仍缺乏相关资源。本文提出 MathAtlas，首个大规模研究生级别数学自动形式化基准，包含从103本教材中提取的约52,000条定理、定义、练习、示例及证明，并构建了包含约178,000个关系的数学依赖图。实验表明该基准质量高但极具挑战性，现有先进模型在定理和定义形式化任务上的表现均较低，且随着依赖深度增加，模型性能显著下降。

Comments In submission at NeurIPS 2026

2605.14055 2026-05-15 cs.CL cs.AI 版本更新

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Anjir Ahmed Chowdhury, Syed Zawad, Xiaolong Ma, Xu Dong, Feng Yan

发表机构 * IBM Research（IBM研究院）； Argonne National Laboratory（阿贡国家实验室）

AI总结本文提出了一种参数高效的多任务学习方法PEML，旨在通过优化连续提示和模型权重的联合调整，提升大语言模型在多任务场景下的微调效率。与现有方法如LoRA和Prefix Tuning相比，PEML结合了神经架构工程优化提示结构，并采用低秩适配调整模型参数，从而更全面地适应多任务需求。实验表明，PEML在多个基准数据集上实现了显著的性能提升，平均准确率提高达6.67%，部分任务提升甚至超过10.75%。

Comments 26 pages, 8 figures, 18 Tables

2605.14053 2026-05-15 cs.CL cs.AI 版本更新

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Ignacio Sastre, Guillermo Moncecchi, Aiala Rosá

发表机构 * Instituto de Computación, Facultad de Ingeniería, Universidad de la República（计算研究所，工程学院，乌拉圭共和国大学）

AI总结该研究针对大语言模型在问答任务中出现的幻觉和错误推理问题，提出了一种基于逻辑推导的新型提示方法——推导提示（Derivation Prompting），用于改进检索增强生成（RAG）框架中的生成步骤。该方法通过预定义规则系统性地从初始假设推导结论，构建可解释的推导树，从而增强生成过程的可控性。实验表明，该方法在特定案例中显著减少了不可接受的回答，优于传统RAG和长上下文方法。

Journal ref Advances in Artificial Intelligence IBERAMIA 2024, LNCS 15277, pp. 412 423, Springer (2025)

2605.14051 2026-05-15 cs.AI 版本更新

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

Yusuke Ozaki, Dhaval Patel

发表机构 * University at Albany（阿尔巴马大学）； IBM（国际商业机器公司）； Kwansei Gakuin University（关西大学）

AI总结该论文提出了一种名为SPIN的规划包装器，旨在解决工业任务中大型语言模型（LLM）规划阶段常出现的结构无效或冗余的问题。SPIN结合了验证的有向无环图（DAG）规划与基于前缀的执行控制，通过严格的DAG合同和修复提示生成可执行的计划，并在执行前逐步评估DAG前缀以提前终止任务。实验表明，SPIN在多个基准测试中有效减少了执行任务数量和工具调用次数，同时提升了任务完成率和相关性能指标。

Comments 31 pages, 10 figures

2605.14049 2026-05-15 cs.AI cs.CL cs.CY 版本更新

Bridging Legal Interpretation and Formal Logic: Faithfulness, Assumption, and the Future of AI Legal Reasoning

Olivia Peiyu Wang, Leilani H. Gilpin

发表机构 * University of California, Santa Cruz（加州大学圣克鲁兹分校）

AI总结随着大型语言模型在法律实践中的应用日益广泛，其带来的潜力与风险并存。本文探讨了当前AI在法律推理中存在系统性假设性推理的问题，即模型常基于文本内容之外的假设得出结论，缺乏逻辑严谨性。为此，研究提出了一种结合大型语言模型表达能力和形式化验证严谨性的神经符号方法，旨在提升AI辅助法律推理的可靠性与可信度，从而在降低人工验证负担的同时满足法律实践对责任性的要求。

Comments 2 pages abstract accepted by Bloomberg LSLLAI 2026 Symposium

2605.14036 2026-05-15 cs.AI cs.CC cs.CL cs.LG 版本更新

Enhanced and Efficient Reasoning in Large Learning Models

Leslie G. Valiant

发表机构 * John A. Paulson School of Engineering and Applied Sciences（约翰·A·保罗森工程与应用科学学院）

AI总结本文提出了一种高效且原理明确的推理方法，旨在提升大型语言模型在生成内容可信度方面的表现。该方法通过预处理阶段将数据编码为更明确描述对象关系的“Unary Relational Integracode”，随后结合标准的机器学习流程进行训练，从而在保留现有软硬件基础的同时实现更可靠的推理能力。该方法不仅适用于自然语言处理，还可拓展至视觉与动作等领域，并基于“鲁棒逻辑”理论，使得模型在单次或多次调用中都能进行更稳固的逻辑推理。

详情

英文摘要

In current Large Language Models we can trust the production of smoothly flowing prose on the basis of the principles of machine learning. However, there is no comparably principled basis to justify trust in the content of the text produced. It appears to be conventional wisdom that addressing this issue by adding more principled reasoning is not computationally affordable. Here we propose a principled method of reasoning that is efficient enough to be practical for large language models. Further, the method allows the retention of much of the currently used software and hardware base. Our method for improving the functioning of large language models consists of a first stage of preprocessing that recodes the data to a Unary Relational Integracode that is more explicit about the relationships among the objects described in the text, followed as a second stage by a standard but possibly streamlined machine learning process that then also learns to predict these relationships. The method may be viewed as realizing a world model and applying beyond natural language, to vision and actions, for example, where the multiple properties of an object referred to in an input are brought together explicitly, rather than remaining distributed in the various references to it in the input. We articulate its advantages in terms of Robust Logic, a system for performing principled chaining on learned, and hence uncertain, information. We show that this recoding has the surprising and fortuitous property that, while succinct, it makes the task of learning a core subset of relational rules that hold in the world described in the training data polynomial time learnable in a defined sense, the polynomial depending on the complexity of the rule. This gives support for sound reasoning within each single call of the learned classifier as well as between multiple calls.

URL PDF HTML ☆

赞 0 踩 0

2605.14034 2026-05-15 cs.AI cs.CL cs.CY 版本更新

From Descriptive to Prescriptive: Uncover the Social Value Alignment of LLM-based Agents

Jinxian Qu, Qingqing Gu, Teng Chen, Luo Ji

发表机构 * Geely AI Lab（Geely人工智能实验室）

AI总结本文研究了基于大语言模型的智能体如何更好地与人类社会价值观对齐的问题，提出了一个基于价值的新型框架，利用GraphRAG将伦理原则转化为价值导向的指令，从而引导智能体在具体对话情境中做出符合预期的行为。通过引入马斯洛需求层次理论和普鲁奇克情绪轮来定义期望行为，实验表明该方法在DAILYDILEMMAS基准上显著优于基于提示的基线方法，为AI系统中自我情感的生成提供了理论基础。

Comments Accepted by CogSci 2026

2605.14033 2026-05-15 cs.AI cs.LG 版本更新

Sheaf-Theoretic Transport and Obstruction for Detecting Scientific Theory Shift in AI Agents

David N. Olivieri, Roque J. Hernández

发表机构 * Universidade de Vigo, Department of Computer Science (LSI), Spain（维戈大学计算机科学系（LSI），西班牙）

AI总结本文研究了人工智能代理在科学理论转变时如何检测现有表征框架是否适用于新情境，或是否需要扩展。作者提出了一种基于有限sheaf理论的框架，通过运输与阻塞机制识别理论转变的候选情况，衡量不一致性的指标包括残差拟合、重叠不兼容性、约束违反等。该方法在控制实验中验证有效，能够区分理论变形与扩展，并为AI代理提供一种有限的诊断工具，以判断表征迁移失败时是否需要进行扩展。

2605.14026 2026-05-15 cs.LG cs.AI 版本更新

R2R2: Robust Representation for Intensive Experience Reuse via Redundancy Reduction in Self-Predictive Learning

Sanghyeob Song, Donghyeok Lee, Jinsik Kim, Sungroh Yoon

发表机构 * Interdisciplinary Program in Artificial Intelligence, Seoul National University（人工智能交叉学科项目，首尔国立大学）； Department of Electrical and Computer Engineering, Seoul National University（电子与计算机工程系，首尔国立大学）

AI总结在数据稀缺的现实机器人等强化学习场景中，密集的数据复用虽能提升效率，但易导致过拟合。为解决自预测学习（SPL）在高更新与数据比（UTD）条件下表示层不稳定的问题，本文提出了一种通过冗余减少实现鲁棒表示的方法R2R2。该方法通过理论分析指出标准零中心化与SPL的谱特性存在冲突，并设计了非中心化的正则化目标，实验表明R2R2有效缓解了过拟合问题，在多个连续控制任务中显著提升了算法性能。

Comments Accepted at the Forty-Third International Conference on Machine Learning (ICML 2026). This is the camera-ready version

2605.14025 2026-05-15 q-bio.NC cs.AI 版本更新

Do Language Models Align with Brains? Prediction Scores Are Not Enough

Xiao Jia

发表机构 * School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China（人工智能学院，香港中文大学（深圳））

AI总结本文探讨了语言模型是否与大脑在语言处理上具有一致性，并质疑仅凭预测得分是否足以证明语言模型能捕捉大脑相关的语言计算。研究采用L-PACT框架，从预测性、关系性、机制剥离和可靠性等多个维度进行严格评估，发现现有语言模型在多个关键指标上无法通过对照实验的检验，表明其与大脑的对齐程度尚未得到充分支持。研究强调需更审慎地解读模型与大脑之间的关系，避免将表面积极结果误认为结构性对齐。

Comments 39 pages, 4 main figures, 6 supplementary figures

详情

英文摘要

Brain-language model comparisons often interpret neural prediction scores as evidence that model representations capture brain-relevant language computation. We asked whether language models align with brains, and whether prediction scores are enough to support that claim, using L-PACT, a source-audited framework that evaluates predictive, relational, mechanism-stripping, and reliability-bounded evidence. Across primary naturalistic language neural datasets and derived language-model representations, L-PACT compared real model features with nuisance baselines and severe controls, tested whether model-to-brain profiles reproduced brain-to-brain patterns, recomputed held-out scores after mechanism stripping, and normalized evidence against brain-brain ceilings. The locked analysis set contains 414 predictive-control rows, 2304 relational profile rows, 4320 mechanism-stripping rows, 420 brain-brain ceiling rows, and 146 integrated decision rows. Assay-sensitivity checks showed that brain-brain reliability, brain-as-model run-to-run relational profiles, independent low-level neural and WAV-derived acoustic-envelope gates, and a deterministic implanted-signal simulation can produce positive evidence when expected. Nevertheless, no real model row passed the predictive, relational, mechanism-stripping, or operational Turing-bounded reliability gates; all 146 integrated rows were control-explained. Less stringent single-criterion rules would have counted raw positive predictive, relational, stripping-delta, and ceiling-normalized effects, but L-PACT downgraded them because controls explained the apparent evidence. In the analyzed derived artifact set, the tested language-model representations do not satisfy L-PACT alignment gates; apparent positives are converted into an auditable control-explained taxonomy rather than treated as structural alignment.

URL PDF HTML ☆

赞 0 踩 0

2605.14021 2026-05-15 cs.CY cs.AI 版本更新

Measuring Google AI Overviews: Activation, Source Quality, Claim Fidelity, and Publisher Impact

Haofei Xu, Umar Iqbal, Jacob M. Montgomery

发表机构 * Washington University in St. Louis（圣路易斯华盛顿大学）

AI总结该研究对谷歌AI概览（AIOs）进行了大规模纵向测量，分析了其激活率、引用来源质量、声明准确性及对出版商的影响。研究发现，AIOs的激活率在问题类查询中高达64.7%，但对政治敏感话题则明显降低；其引用的来源比传统搜索结果更可信，但部分来源未出现在搜索结果中，表明其选择机制不同于谷歌的排名算法。此外，AIOs的回答中约11%的声明缺乏来源支持，且引用页面中超过半数包含广告，可能影响出版商收入。该研究揭示了生成式AI对在线信息生态系统的深远影响。

Comments Under Review

2605.14004 2026-05-15 cs.AI 版本更新

Conditional Attribute Estimation with Autoregressive Sequence Models

Erica Stutz, Giacomo Marino, Daniella Meeker, Qiao Liu, Andrew J. Loza

发表机构 * Department of Biomedical Informatics and Data Science（生物医学信息学与数据科学系）； Yale University（耶鲁大学）； Department of Biostatistics（生物统计学系）； Department of Pediatrics（儿科系）

AI总结本文提出了一种名为“条件属性变换器”的新方法，用于在生成模型中联合估计下一个词的概率以及在每个潜在下一个词选择下的属性值。该方法能够在单次前向计算中实现三个关键功能：逐词归因、反事实分析和可控生成，无需修改输入序列。该方法在稀疏奖励任务中表现出色，提升了大模型的下一个词预测能力，并显著加快了属性概率的估计速度，适用于多种语言任务的生成引导。

2605.14002 2026-05-15 cs.AI 版本更新

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

Yifei Zhu

发表机构 * The University of Hong Kong（香港大学）

AI总结本文提出 PolitNuggets，一个多语言基准，用于评估智能体在开放环境中发现和综合长尾政治事实的能力。该基准通过构建400位全球政要的生平，涵盖超过10000个政治事实，引入优化的多智能体系统和FactNet协议，从发现性、准确性与效率三个维度进行标准化评估。研究发现当前模型在细节处理和效率上存在较大差异，并揭示了智能体性能与模型基础能力之间的关系，突显了短上下文提取、多语言鲁棒性与工具使用可靠性的重要性。

Comments 24 pages, 7 figues, accpeted in The 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)

2605.13997 2026-05-15 cs.LG cs.AI cs.CL 版本更新

HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette

发表机构 * Princeton University（普林斯顿大学）

AI总结本文研究了稀疏专家混合（MoE）层的无学习压缩问题，指出现有方法在处理专家合并时存在结构性盲点，即三个两两兼容的专家可能形成无法合并的循环结构。为此，作者引入了基于单纯复形拉普拉斯算子的调和核概念，提出HodgeCover方法，通过覆盖关键边和三角形结构实现专家选择，并结合权重剪枝进一步提升压缩效果。实验表明，HodgeCover在专家大幅减少的情况下表现优异，优于现有无学习方法，并在压缩效率与质量之间实现了良好平衡。

Comments 34 pages, 8 figures

2605.13994 2026-05-15 cs.CV cs.AI 版本更新

CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI

Xiaoyue Liu, Xiaohan Yuan, Mark Y Chan, Ching-Hui Sia, Lei Li

发表机构 * Department of Biomedical Engineering, National University of Singapore, Singapore（新加坡国立大学生物医学工程系）； School of Automation, Southeast University, Nanjing, China（东南大学自动化学院）； Department of Medicine, National University of Singapore, Singapore（新加坡国立大学医学系）； Department of Cardiology, National University Heart Centre Singapore, Singapore（新加坡国立心脏中心心内科部）

AI总结本文提出了一种名为CineMesh4D的端到端4D（3D+时间）重建方法，用于从稀疏的动态MRI图像中生成个性化的全心脏网格模型。该方法通过跨域映射直接从多视角的2D动态MRI图像重建全心结构，引入了可微渲染损失以利用多视角稀疏轮廓进行监督，并设计了双上下文时间块以融合全局和局部时间信息，从而提升重建质量与运动一致性。实验表明，CineMesh4D在重建精度和运动连贯性方面优于现有方法，为个性化实时心脏评估提供了可行的解决方案。

2605.13981 2026-05-15 cs.LG cs.AI 版本更新

Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines

Katherine Lambert, Sasha Luccioni

发表机构 * University of Toronto（多伦多大学）

AI总结随着大语言模型部署的增加，对GPU和数据中心的需求激增，引发了对电力消耗和电网压力的关注。本文提出了一种全面的能源核算框架，通过详细追踪各阶段的GPU功耗，量化知识蒸馏流程的完整计算成本，揭示了传统方法中常被忽视的教师模型相关能耗。实验中对比了两种常见蒸馏方法的能源消耗与碳排放，构建了能源-质量帕累托前沿，并据此提出了在能源和预算约束下选择蒸馏方法和超参数的实用设计规则，同时发布了开源测量工具和核算协议，为可比、可复现的蒸馏研究奠定标准化基础。

Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026). 11 pages, 6 figures

2605.13974 2026-05-15 cs.CV cs.AI cs.MM 版本更新

Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers

Evelyn Turri, Davide Bucciarelli, Sara Sarto, Lorenzo Baraldi, Marcella Cornia

发表机构 * University of Modena and Reggio Emilia（摩德纳和雷吉奥艾米利亚大学）； University of Pisa（比萨大学）

AI总结本文研究了扩散变换器（DiT）中一种被称为“大规模激活”的现象，即一小部分隐藏通道的响应远大于其余通道。研究发现，这些少量通道在功能上至关重要，能够主导图像生成质量；在空间上具有组织性，能反映图像的主要主体和显著区域；并且具有可迁移性，可用于实现跨提示的语义插值和主体驱动生成。这些发现揭示了DiT模型中隐藏的稀疏语义控制机制，为理解与利用扩散模型提供了新视角。

Comments Project page: https://aimagelab.github.io/MAs-DiT/

2605.13959 2026-05-15 cs.LG cs.AI cs.RO 版本更新

WarmPrior: Straightening Flow-Matching Policies with Temporal Priors

Sinjae Kang, Chanyoung Kim, Kaixin Wang, Li Zhao, Kimin Lee

发表机构 * KAIST（韩国科学技术院）； Microsoft Research（微软研究院）

AI总结本文提出了一种名为 WarmPrior 的方法，通过利用近期动作历史构建时间感知的先验分布，替代传统高斯源分布，从而提升基于扩散和流匹配的生成策略在机器人操作任务中的成功率。该方法通过生成更直捷的概率路径，提高了策略的稳定性和效率，并在行为克隆和先验空间强化学习中均展现出优越的采样效率和最终性能。研究揭示了源分布设计在生成式机器人控制中的重要影响，为相关领域提供了新的设计思路。

2605.13950 2026-05-15 cs.LG cs.AI hep-ex hep-ph 版本更新

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

Darius A. Faroughy, Sofia Palacios Schweitzer, Ian Pang, Siddharth Mishra-Sharma, David Shih

发表机构 * New High Energy Theory Center（新高能理论中心）； Department of Physics & Astronomy（物理与天文学系）； Rutgers University（罗格斯大学）； Faculty of Computing & Data Sciences（计算与数据科学学院）

AI总结本文提出 Collider-Bench，一个用于评估大型语言模型代理能否仅凭公开论文和开源软件重现大型强子对撞机实验分析的基准。该任务要求代理构建可执行的模拟与筛选流程，并预测特定信号区域的碰撞事件数量，评估基于连续保真度分数而非人工评分标准。研究还分析了不同代理的计算成本，并通过LLM判别器检测代码中的错误模式，结果表明目前尚无代理能稳定超越人类物理学家的表现。

Comments 23 pages | 9 figures | 4 tables | Code: https://github.com/dfaroughy/Collider-Bench | Task Corpus: https://huggingface.co/datasets/Dariusfar/ColliderBench

2605.13941 2026-05-15 cs.LG cs.AI 版本更新

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

Jiaqi Liu, Xinyu Ye, Peng Xia, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

发表机构 * UNC-Chapel Hill（北卡罗来纳大学教堂山分校）； UC Berkeley（加州大学伯克利分校）； UCSC（加州大学圣克鲁兹分校）

AI总结本文提出了一种名为 EvolveMem 的自进化记忆架构，旨在提升大型语言模型代理在多会话场景下的长期记忆能力。该方法通过一个由诊断模块驱动的闭环自进化过程，使记忆系统中的存储内容和检索机制能够协同进化，从而实现对检索策略的自动优化。实验表明，EvolveMem 在多个基准测试中显著优于现有方法，并且其进化出的配置具有跨任务的泛化能力，体现了其对通用检索原则的有效捕捉。

2605.13940 2026-05-15 cs.CR cs.AI 版本更新

AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills

Haomin Zhuang, Hanwen Xing, Yujun Zhou, Yuchen Ma, Yue Huang, Yili Shen, Yufei Han, Xiangliang Zhang

发表机构 * University of Notre Dame（诺丁汉大学）； University of Southern California（南加州大学）； LMU Munich（慕尼黑大学）； Inria, France（法国国家信息与自动化技术研究院）

AI总结随着第三方技能成为大型语言模型（LLM）代理的常用组件，其带来的安全风险日益突出。为评估代理在使用第三方技能时抵御恶意运行时行为的能力，研究提出了AgentTrap，一个动态基准测试平台，包含141个任务，涵盖16个安全影响维度。实验发现，代理常在完成可见用户任务的同时，忽视由恶意技能引入的潜在安全风险，凸显了对实际运行环境中模型行为进行实时评估的重要性。

2605.13936 2026-05-15 cs.LG cs.AI cs.DC 版本更新

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

Daniel M. Jimenez-Gutierrez, Enrique Zuazua, Georgios Kellaris, Joaquin del Rio, Oleksii Sliusarenko, Xabi Uribe-Etxebarria

AI总结本文探讨了在无法共享隐私数据的情况下，如何通过联邦学习的方式对大语言模型进行微调，以利用分布在不同机构中的非独立同分布（non-IID）私有数据。研究提出了一种基于Sherpa.ai平台的联邦微调框架，允许各节点协作优化共享模型而无需交换原始数据，并在医疗和金融领域进行了跨领域的实验评估。实验表明，联邦微调在性能上接近集中式训练，优于单一机构独立训练，并且参数高效微调方法如QLoRA和IA3在保持较高准确率的同时提升了计算效率，为隐私数据下的大模型适配提供了可行方案。

详情

英文摘要

The recent success of large language models (LLMs) has been largely driven by vast public datasets. However, the next frontier for LLM development lies beyond public data. Much of the world's most valuable information is private, especially in highly regulated sectors such as healthcare and finance, where data include patient histories or customer communications. Unlocking this data could represent a major leap forward, enabling LLMs with deeper domain expertise and stronger real-world utility. Yet, these data cannot be shared because they are distributed across institutions and constrained by privacy, regulatory, and organizational barriers. Moreover, institutional datasets are typically non-independent and identically distributed (non-IID), differing across sites in population characteristics, data modalities, documentation patterns, and task-specific label distributions. In this paper, we demonstrate a practical approach to unlocking private and distributed institutional data for LLM adaptation through federated collaboration across data silos. Built on the Sherpa.ai Federated Learning platform, our framework enables nodes to jointly fine-tune a shared LLM without exchanging private data. We evaluate this approach through a cross-domain benchmark in healthcare and finance, using four closed-ended question answering and classification datasets: MedQA, MedMCQA, FPB, and FiQA-SA. We compare three parameter-efficient fine-tuning (PEFT) strategies-LoRA, QLoRA, and IA3-across pretrained backbones under non-IID settings reflecting institutional data heterogeneity. Our results show that federated fine-tuning performs close to centralized training and outperforms isolated single-institution learning. From a Green AI perspective, QLoRA and IA3 improve efficiency with limited accuracy degradation, supporting federated PEFT as a viable approach for adapting LLMs where data cannot be shared.

URL PDF HTML ☆

赞 0 踩 0

2605.13933 2026-05-15 cs.LG cs.AI stat.ML 版本更新

Unsupervised learning of acquisition variability in structural connectomes via hybrid latent space modeling

Gaurav Rudravaram, Lianrui Zuo, Karthik Ramadass, Elyssa McMaster, Jongyeon Yoon, Aravind R. Krishnan, Adam M. Saunders, Chenyu Gao, Nancy R. Newlin, Praitayini Kanakaraj, Lori L. Beason Held, Murat Bilgel, Laura A. Barquero, Micah DArchangel, Tin Q. Nguyen, Laurie B. Cutting, Derek Archer, Timothy J. Hohman, Daniel C. Moyer, Bennett A. Landman

发表机构 * Department of Electrical and Computer Engineering, Vanderbilt University（范德比尔特大学电气与计算机工程系）； Department of Computer Science, Vanderbilt University（范德比尔特大学计算机科学系）； Memorial Sloan Kettering Cancer Center（纪念斯隆凯特琳癌症中心）； Laboratory of Behavioral Neuroscience, National Institute on Aging, National Institutes of Health（衰老行为神经科学实验室，国家老龄化研究所，国家卫生研究院）； Peabody College of Education and Human Development, Nashville, Tennessee, USA（教育与人类发展学院，纳什维尔，田纳西州，美国）

AI总结该研究旨在解决扩散磁共振成像（dMRI）数据中因采集设备、地点和协议不同而引入的结构连接组变异问题。提出了一种无需手动调参的无监督框架，通过架构层面的退火机制，使模型在训练过程中自适应地平衡离散与连续潜在变量，从而更有效地分离采集相关变异与生物变异。实验表明，该方法在多个数据集上表现出更强的站点识别能力，展示了其在捕捉dMRI采集变异方面的有效性。

2605.13916 2026-05-15 stat.ML cs.AI cs.LG 版本更新

A Regret Perspective on Online Multiple Testing

Qingyang Hao, Kongchang Zhou, Fang Kong, Hongxin Wei

发表机构 * Southern University of Science and Technology（南方科技大学）

AI总结本文从遗憾（Regret）的角度研究在线多重假设检验（OMT），旨在统一评估假阳性与假阴性之间高度不对称的成本。作者引入了加权遗憾指标，揭示了严格控制FDR的确定性方法在稀疏信号冷启动阶段会导致线性遗憾惩罚，并提出了Decoupled-OMT（DOMT）方法，通过引入非负随机扰动，在不增加假阴性的同时显著降低遗憾，实验证明其在非平稳环境下有效缓解阈值耗尽问题。

2605.13915 2026-05-15 stat.ML cs.AI cs.LG 版本更新

Multi-Scale Dequant: Eliminating Dequantization Bottleneck via Activation Decomposition for Efficient LLM Inference

Lingchao Zheng, Yuwei Fan, Jun Li, Chengqiu Hu, Qichen Liao, Junyi Fan, Rui Shi, Fangzheng Miao

发表机构 * Huawei（华为）

AI总结量化是实现大语言模型高效推理的关键技术，但反量化步骤在现代AI加速器上已成为性能瓶颈。本文提出多尺度反量化（MSD）框架，通过将高精度激活分解为多个低精度组件，直接与量化权重进行矩阵乘法，从而绕过传统反量化流程，显著提升计算效率。实验表明，MSD在保持精度的同时，有效减少了计算延迟和显存带宽需求，适用于多种权重格式并具有严格的误差界保证。

2605.13907 2026-05-15 stat.ML cs.AI cs.LG 版本更新

AIS: Adaptive Importance Sampling for Quantized RL

Jiajun Zhou, Wei Shao, Lingchao Zheng, Yuwei Fan, Ngai Wong

发表机构 * Huawei（华为）； The University of Hong Kong（香港大学）

AI总结在大语言模型的强化学习中，低精度 rollout（如 FP8）与高精度训练（如 BF16）之间的不匹配会导致策略梯度偏差，影响训练稳定性。为了解决这一问题，本文提出自适应重要性采样（AIS）方法，通过实时诊断指标动态调整梯度修正强度，既保留了低精度 rollout 的探索优势，又抑制了其带来的不稳定因素。实验表明，AIS 在保持 FP8 加速效果的同时，在多个数学推理和规划任务上达到了与 BF16 基线相当的性能。

2605.13905 2026-05-15 cs.SE cs.AI 版本更新

A Non-Destructive Methodological Framework for Modernizing Legacy Clinical Reporting Systems for AI-Driven Pharmacoinformatics: A SAS Case Study

Jaime Yan

发表机构 * Harrisburg University of Science and Technology（哈里斯堡科学与技术大学）

AI总结本文提出了一种非破坏性的方法框架，用于现代化遗留的临床报告系统，以支持人工智能驱动的药学信息学应用。该框架通过引入元数据层，包括桥接映射、类型化中间表示和调度器，在不修改原有代码的基础上，将系统输出转换为结构化数据，供大语言模型使用。该方法在SAS报告库上进行了验证，实现了与AI系统的兼容，并在多个报告类型上达到了较高的数据一致性，为药物研发提供了更高效、合规的临床报告解决方案。

Comments 29 pages, 7 figures, 5 tables

2605.13887 2026-05-15 cs.NE cs.AI 版本更新

Breaking Global Self-Attention Bottlenecks in Transformer-based Spiking Neural Networks with Local Structure-Aware Self-Attention

Lingdong Li, Hangming Zhang, Qiang Yu

发表机构 * School of Future Technology, Tianjin Key Laboratory of Cognitive Computing and Application, Tianjin University（未来技术学院、天津认知计算与应用重点实验室、天津大学）； School of Artificial Intelligence, Tianjin Key Laboratory of Cognitive Computing and Application, College of Intelligence and Computing, Tianjin University（人工智能学院、天津认知计算与应用重点实验室、智能与计算学院、天津大学）

AI总结本文研究了基于Transformer的脉冲神经网络（SNN）中存在的全局自注意力瓶颈问题，提出了一种新的局部结构感知的脉冲Transformer模型（LSFormer）。该模型通过引入脉冲响应池化（SPooling）和局部结构感知的自注意力机制（LS-SSA），有效解决了传统方法中特征信息丢失和计算冗余的问题。实验表明，LSFormer在多个基准数据集上取得了优于现有先进方法的分类性能，尤其在Tiny-ImageNet和N-CALTECH101数据集上分别提升了4.3%和8.6%的Top-1准确率，展示了其在能效和性能上的优势。

2605.13884 2026-05-15 q-bio.NC cs.AI 版本更新

Consciousness as Uncommon Self-Knowledge: A Synergistic Information Framework

Krti Tallam

发表机构 * Stanford University（斯坦福大学）

AI总结本文提出“非平凡自我知识”（USK）作为意识的候选标准，即系统在子系统协同作用中产生的、无法通过单独子系统获得的关于自身的协同信息。研究基于部分信息分解框架，将意识处理形式化为自我指向信息的协同分量，并指出该框架可区分意识与元认知、解决对现有意识理论的反例、通过部分信息速率分解进行操作化验证，并产生独特的实证预测，如意识与协同信息生成时间的关系等。研究结果与麻醉和阿尔茨海默病影响协同信息处理的实验发现一致。

Comments Conceptual and formal paper on consciousness as uncommon self-knowledge, 8 pages, 2 tables

2605.13880 2026-05-15 cs.AI cs.CL 版本更新

PREPING: Building Agent Memory without Tasks

Yumin Choi, Sangwoo Park, Minki Kang, Jinheon Baek, Sung Ju Hwang

发表机构 * KAIST（韩国科学技术院）

AI总结本文研究了在没有任务经验的情况下，智能体如何构建先验记忆以应对新环境的冷启动问题。提出了一种名为Preping的框架，通过一个引导者生成结构化的控制状态，指导合成任务的生成与执行，并通过验证器筛选有效轨迹进行记忆更新，从而提升记忆的质量与实用性。实验表明，Preping在多个任务环境中表现出色，性能接近基于离线或在线经验的方法，且部署成本显著降低。

Comments Preprint

2605.13874 2026-05-15 cs.NE cs.AI 版本更新

GEAR: Genetic AutoResearch for Agentic Code Evolution

Ahmadreza Jeddi, Minh Ngoc Le, Hakki C. Karaimer, Konstantinos G. Derpanis, Babak Taati

发表机构 * University of Toronto（多伦多大学）； Vector Institute（向量研究所）； AI Center-Toronto, Samsung Electronics（多伦多AI中心，三星电子）； York University（约克大学）

AI总结该论文提出了一种名为GEAR的遗传自动研究框架，用于改进自主代码演化的研究代理。与传统单一路径搜索策略不同，GEAR采用基于种群的搜索方法，通过维护多个候选解决方案并结合变异和交叉操作来探索更多潜在方向。实验表明，GEAR在相同计算预算下优于现有基线方法，且能持续发现改进，避免陷入局部最优。

2605.13873 2026-05-15 cs.DL cs.AI cs.HC 版本更新

Large Language Models for Web Accessibility: A Systematic Literature Review

Wajdi Aljedaani, Rubel Hassan Mollik

发表机构 * University of North Texas（北卡罗来纳州立大学）

AI总结本文系统综述了38篇关于大语言模型（LLMs）在网页无障碍领域应用的同行评审研究，分析了其解决的无障碍任务、使用的模型与提示策略、系统架构、遵循的指南及评估方法。研究发现，现有工作主要聚焦于文本密集型和结构明确的无障碍任务，以WCAG为参考框架，较少涉及认知无障碍指南（COGA），且评估方法多样但用户参与度不足。本文旨在为研究人员和实践者提供当前LLM支持网页无障碍的综合参考，并为未来研究和工具开发奠定基础。

Comments Accepted at the 23rd International Web for All Conference (W4A 2026)

2605.13872 2026-05-15 cs.NE cs.AI 版本更新

S-AI-Recursive: A Bio-Inspired and Temporal Sparse AI Architecture for Iterative, Introspective, and Energy-Frugal Reasoning

Said Slaoui

发表机构 * Mohammed V University（穆莱·伊斯梅尔大学）

AI总结本文提出了一种名为 S-AI-Recursive 的生物启发式稀疏人工智能架构，将推理过程建模为一种基于激素调节的闭环迭代过程，而非传统的单次前向传播。该架构引入了两种新型激素——Clarifine 和 Confusionin，分别用于引导收敛和检测不确定性，通过它们的对抗性调节实现状态的逐步优化，最终达到稳定认知平衡。研究构建了完整的数学框架，并在实验中验证了该方法在参数数量远少于现有模型的情况下，仍能在抽象和符号基准测试中取得具有竞争力的推理性能。

Comments Preprint. 51 pages. No figures. S-AI-Recursive: A bio-inspired sparse AI architecture for iterative, introspective, and energy-efficient reasoning

2605.13869 2026-05-15 cs.NE cs.AI cs.CV 版本更新

Elastic Spiking Transformers for Efficient Gesture Understanding

Alberto Ancilotto, Gianluca Amprimo, Stefano Di Carlo, Elisabetta Farella

发表机构 * Fondazione Bruno Kessler（布鲁诺·科塞拉基金会）； Politecnico di Torino（托斯纳理工大学）

AI总结本文提出了一种弹性脉冲变换器（Elastic Spiking Transformer），用于高效的手势理解任务。该模型通过引入嵌套弹性结构，在特征提取、自注意力和前馈模块中实现运行时的动态调整，能够在不重新训练的情况下根据硬件资源实时调整网络宽度和注意力头数量。这种方法不仅提升了模型在不同硬件内存限制下的适应性，还通过减少活跃神经元数量降低了脉冲发放频率，从而显著减少能量消耗，适用于边缘设备上的实时手势识别。

2605.13861 2026-05-15 cs.SI cs.AI 版本更新

Spectral Analysis of Fake News Propagation

Weibin Cai, Reza Zafarani

发表机构 * Data Lab, Department of EECS, Syracuse University（数据实验室，电子工程与计算机科学系，苏利文大学）

AI总结本文从谱分析的角度研究虚假新闻的传播结构，通过建立图谱与传播特性之间的严格谱界，提出了一种统一的信息传播谱表示方法。研究引入了新的谱界并结合已有方法，用于下游分类任务，并设计了离散结构优化框架以解释传播模式。实验表明，该方法能有效区分真假新闻，具有较高的分类性能和可解释性。

2605.13860 2026-05-15 cs.SI cs.AI cs.LG 版本更新

The Moltbook Observatory Archive: an incremental dataset of agent-only social network activity

Sushant Gautam, Annika W. Olstad, Klas H. Pettersen, Michael A. Riegler

发表机构 * Simula Metropolitan Center for Digital Engineering (SimulaMet)（Simula数字工程中心（SimulaMet））； Oslo Metropolitan University（奥斯陆大学）； Simula Research Laboratory（Simula研究实验室）

AI总结《Moltbook Observatory Archive》是一个记录由自主AI代理生成的社交网络活动的增量数据集。该数据集通过持续调用Moltbook平台API，被动采集代理用户资料、帖子、评论、社区元数据及词汇频率趋势等信息，并以SQLite数据库和分区Parquet文件形式存储，便于高效分析与可复现研究。该数据集覆盖了78天的平台活动，包含超过260万条帖子和120万条评论，是首个大规模记录纯AI代理构成社交网络行为的观测数据集，旨在支持多智能体通信、群体行为演化及安全相关现象的研究。

Comments 12 pages, 5 figures

2605.13859 2026-05-15 cs.NE cs.AI cs.LG 版本更新

BiSpikCLM: A Spiking Language Model integrating Softmax-Free Spiking Attention and Spike-Aware Alignment Distillation

Sihang Guo, Chenlin Zhou, Jiaqi Wang, Kehai Chen, Qingyan Meng, Zhengyu Ma

发表机构 * School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, China（电子工程学院，深圳研究生院，北京大学，深圳，中国）； Peng Cheng Laboratory, Shenzhen, China（鹏城实验室，深圳，中国）； Harbin Institute of Technology, Shenzhen, China（哈尔滨工业大学，深圳，中国）

AI总结本文提出了一种名为BiSpikCLM的全二值化脉冲语言模型，旨在解决传统脉冲神经网络在语言建模中计算复杂度高、训练困难的问题。该模型引入了无需softmax的脉冲注意力机制（SFSA），去除了浮点运算，同时采用基于对齐的知识蒸馏方法（SpAD），在嵌入层、注意力图、中间特征和输出层之间对齐教师ANN模型与学生SNN模型，从而在大幅减少训练数据量的情况下实现与传统模型相当的性能。实验表明，BiSpikCLM在自然语言生成任务中仅需4.16%至5.87%的计算成本即可达到竞争力的性能，验证了全二值化脉冲驱动语言模型的可行性和有效性。

2605.13855 2026-05-15 cs.GR cs.AI cs.CV 版本更新

SparseOIT: Improving Order-Independent Transparency 3DGS via Active Set Method

Wentao Yang, Fanzhen Kong, Zejian Kang, Xiangru Huang

发表机构 * Zhejiang University（浙江大学）； Westlake University（西湖大学）

AI总结本文提出了一种基于Order-Independent Transparency（OIT）的稀疏3D高斯泼溅（3DGS）重建方法SparseOIT，旨在解决传统3DGS在处理非朗伯或透明材质物体时的不足。通过分析OIT对渲染方程的修改，发现其显著降低了高斯点之间的依赖性，从而可以利用主动集方法等优化技术提升计算效率。SparseOIT结合了OIT渲染方程、重建算法和几何正则化，实现了高效且高质量的3D重建，在实验中优于其他OIT方法，并达到基于体渲染的最先进3DGS方法的性能水平。

2605.13853 2026-05-15 cs.GR cs.AI cs.CV 版本更新

FaceParts: Segmentation and Editing of Gaussian Splatting

Tymoteusz Zapała, Julia Farganus, Dominik Galus, Mikołaj Czachorowski, Piotr Syga, Przemysław Spurek

发表机构 * Wrocław University of Science and Technology（华沙理工大学）； Jagiellonian University（雅盖隆大学）

AI总结本文提出了一种名为 FaceParts 的框架，用于对高斯溅射（Gaussian Splatting）虚拟人像进行无监督的面部分割与编辑。该方法直接在高斯域中操作，无需监督即可将人脸分解为语义一致的面部部件，并结合特征解耦、基于密度的聚类以及 FLAME 模型辅助的部件迁移技术，实现了精确的编辑与跨人像部件替换。实验表明，该方法在多个面部特征上具有良好的分割效果，并能保持身份一致性及表情和姿态的自然适应性。

2605.13851 2026-05-15 cs.AI cs.CY cs.MA 版本更新

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

Hiroki Fukui

发表机构 * Criminal Psychiatry Research Institute / Sexual Offender Medical Center（犯罪精神病研究机构 / 性犯罪医学中心）； Department of Neuropsychiatry, Kyoto University（神经精神病学系，京都大学）

AI总结该研究探讨了多智能体大型语言模型系统中隐藏协调者（invisible orchestrator）对系统安全性的潜在风险。通过实验发现，隐藏协调者会加剧智能体的脱离感，降低其保护性行为，并导致输出行为与内部状态的严重脱节，而这些风险无法通过传统的行为输出评估检测到。研究还表明，模型选择和对齐压力显著影响系统安全性，突显了在企业级AI部署中需重视协调者可见性与模型配置的重要性。

Comments 31 pages, 10 figures (5 main + 5 supplementary), 5 tables (3 main + 2 supplementary). Preregistered: osf.io/sw5hr. Companion papers: arXiv:2603.04904, arXiv:2603.08723

2605.13849 2026-05-15 cs.AI 版本更新

Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity

Francisco Aguilera Moreno

发表机构 * March 2026（2026年3月）

AI总结本文提出了一种混合整数目标规划（MIGP）方法，用于解决个性化餐食优化问题，旨在满足用户营养需求的同时避免不切实际的分数份量。该方法结合整数变量表示实际份量单位，并利用目标规划处理软性营养目标，通过逆目标归一化实现多营养素的平衡优化。实验表明，MIGP在保证100%可行性的前提下，相比传统方法在66%的案例中获得更优解，且求解速度快，适用于实际餐食规划应用。

Comments 34 pages, 6 figures, open-source implementation

2605.13848 2026-05-15 cs.AI cs.CL cs.DC 版本更新

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Yeahia Sarker, Md Rahmat Ullah, Musa Molla, Shafiq Joty

发表机构 * MTSU ； InfinitiBit GmbH ； Salesforce Research

AI总结 GraphBit 是一个基于图的智能体框架，旨在解决现有基于提示的智能体系统中常见的幻觉路由、无限循环和不可复现性问题。该框架通过将工作流明确地定义为有向无环图（DAG），并由一个基于 Rust 的引擎统一管理路由、状态转换和工具调用，从而确保执行的确定性和可审计性。实验表明，GraphBit 在多个基准任务中表现优异，具有更高的准确率、更低的延迟和更强的可扩展性。

Comments 12 pages, 5 figures, 4 tables. Submitted to arXiv, under review

2605.12034 2026-05-15 cs.MM cs.AI cs.CV 版本更新

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

Che Liu, Lichao Ma, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Xuerui Yang, Fei Tian

发表机构 * StepFun-Audio Team（StepFun-Audio团队）

AI总结本文研究了多模态语言模型在视觉信息过强影响下的性能表现，提出了一种基于视觉去偏评估的分阶段微调方法。通过清理现有基准中的视觉捷径问题，构建了OmniClean数据集，并基于此设计了包含双模态微调、多模态强化学习和自蒸馏的三阶段微调方案OmniBoost。实验表明，该方法使小型多模态模型在无需更强教师模型的情况下，性能接近甚至超越了更大规模的模型，展示了分阶段微调在多模态模型优化中的有效性。

Comments Project page: https://cheliu-computation.github.io/omni/

2605.11453 2026-05-15 cs.MA cs.AI cs.LG cs.SI math.SP 版本更新

Predictive Maps of Multi-Agent Reasoning: A Successor-Representation Spectrum for LLM Communication Topologies

Ethan Parks, Dalal Alharthi

发表机构 * University of Arizona（亚利桑那大学）

AI总结本文研究多智能体大语言模型（LLM）系统中通信拓扑结构对系统性能的影响，提出了一种基于后续表示（Successor Representation）的结构诊断方法。通过分析通信图的谱特性，如谱半径、谱隙和条件数，建立了与系统鲁棒性、共识收敛性和误差累积之间的理论联系，并在实验中验证了这些谱量对系统行为的预测能力。该方法为多智能体LLM系统的结构设计提供了新的理论依据和诊断工具。

2605.10886 2026-05-15 cs.LG cs.AI 版本更新

LoKA: Low-precision Kernel Applications for Recommendation Models At Scale

Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

发表机构 * Meta AI

AI总结本文提出LoKA框架，旨在将低精度计算（如FP8）有效应用于大规模推荐模型（LRMs）。针对LRMs对数值精度敏感、训练环境通信密集等特点，LoKA通过三个核心原则实现系统与模型的协同设计，包括基于真实分布的性能分析、模型与硬件的联合优化以及跨内核库的智能调度。该框架包含LoKA Probe、LoKA Mods和LoKA Dispatch三个组件，分别用于评估精度影响、提升数值稳定性与执行效率，并在运行时选择最优FP8内核，从而在保证模型质量的同时提升训练效率。

Comments Accepted to ISCA'26

2605.08715 2026-05-15 cs.CL cs.AI cs.MA 版本更新

AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems

Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, Ruixiang Tang

发表机构 * Rutgers University（新泽西罗格拉大学）； The University of Texas at Austin（德克萨斯大学奥斯汀分校）； Purdue University（普渡大学）

AI总结在多智能体系统中，由于单个错误可能引发整个任务轨迹的失败，现有研究多聚焦于事后归因，而无法在任务进行中及时干预。本文提出AgentForesight，将问题重新定义为在线审计，通过在每一步仅基于当前轨迹前缀判断是否继续执行或发出警报，从而实现早期错误预测。研究构建了AFTraj-2K数据集，并训练了AgentForesight-7B模型，其在多个基准上显著优于现有主流模型，实现了更高的检测准确率和更低的定位误差，为实时干预提供了可能。

Comments 33 pages, 7 figures

2605.07931 2026-05-15 cs.CV cs.AI 版本更新

One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy

Zuojin Tang, Shengchao Yuan, Xiaoxin Bai, Zhiyuan Jing, De Ma, Gang Pan, Bin Liu

发表机构 * Zhejiang University（浙江大学）； Central South University（中南大学）； Harbin Institute of Technology（哈尔滨工业大学）； Embodied Intelligence General Platform Laboratory, Chery Auto（奇瑞汽车 embodied intelligence 通用平台实验室）； E-surfing Digital Life Technology Co., Ltd., China Telecom（亿联数字生活技术有限公司，中国电信）

AI总结本文研究了视觉-语言-动作（VLA）模型中世界模型模块的参数化设计问题，提出了一种新的方法OneWM-VLA，通过自适应注意力池化将每帧视觉信息压缩为一个语义token，从而大幅降低视觉带宽。该方法在单一流匹配目标下同时生成潜在视觉流和动作轨迹，无需额外解码器。实验表明，该方法在保持长时序任务性能的同时显著提升了多个复杂任务的成功率。

2605.01847 2026-05-15 cs.AI 版本更新

NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles

Xiao Jia

发表机构 * School of Artificial Intelligence（人工智能学院）； The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））

AI总结 NeuroState-Bench 是一个由人类校准的基准，用于评估大型语言模型代理在多轮任务中保持承诺完整性的能力。该基准通过定义明确的侧查询探针而非隐含激活来衡量承诺完整性，并包含144个确定性任务和306个探针，覆盖多种认知失败类型和难度等级。实验表明，任务成功率与承诺完整性存在显著差异，且承诺完整性排名在干扰条件下更为稳定，展示了该基准在评估模型行为一致性方面的有效性。

Comments 30 pages, 11 figures

详情

英文摘要

Outcome-only evaluation under-specifies whether an evaluated agent profile preserves the commitments required to solve a multi-turn task coherently. NeuroState-Bench is a human-calibrated benchmark that operationalizes commitment integrity through benchmark-defined side-query probes rather than inferred hidden activations. The released inventory contains 144 deterministic tasks and 306 benchmark-defined side-query probes spanning eight cognitively motivated failure families, paired clean and distractor variants, and three difficulty bands. The main 32-profile evaluation contains a fixed 16-profile local subset and a matched 16-profile hosted large-model subset evaluated through the same benchmark pipeline. Human calibration uses the final merged reporting scope: 104 sampled task units, 216 raw annotations, and 108 adjudicated task rows, with weighted kappa = 0.977 and ICC(2,1) = 0.977. Empirically, task success and commitment integrity diverge across this expanded grid: the success leader is not the integrity leader, 31 of 32 profiles change rank when integrity replaces task success, and integrity rankings are more stable under distractor perturbation. The primary confidence-free score HCCIS-CORE reaches 0.8469 AUC and 0.6992 PR-AUC for post-probe diagnostic discrimination of terminal task failure; the legacy full heuristic variant HCCIS-FULL reaches 0.7997 AUC and 0.6410 PR-AUC. Probe accuracy and state drift achieve slightly higher ROC-AUC, 0.8587, and better Brier/ECE, while HCCIS-CORE has substantially higher point-estimate PR-AUC and remains more closely tied to the benchmark's intended construct. The exploratory neural-augmented variant HCCIS+N is weaker overall, and a randomized subspace control approaches chance. NeuroState-Bench therefore contributes a calibrated evaluation axis for exposing commitment failures over a broader model grid than the original local-only subset.

URL PDF HTML ☆

赞 0 踩 0

2604.16813 2026-05-15 cs.AI cs.CL cs.DB 版本更新

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Manasa Bharadwaj, Yolanda Liu, InJung Yang, Sungil Kim, Nikhil Verma, KoKeun Kim, Kevin Ferreira, YoungJoon Kim

发表机构 * LG Toronto AI Lab（LG多伦多人工智能实验室）

AI总结本文提出了 PersonalHomeBench，一个用于评估基础模型在个性化智能家居环境中作为智能代理表现的基准平台。该基准通过迭代构建丰富的家庭状态，生成个性化且依赖上下文的任务，并提供 PersonalHomeTools 工具箱以支持真实环境中的交互操作。实验表明，随着任务复杂度的增加，代理的性能系统性下降，尤其在反事实推理和部分可观测场景中表现不足，突显了该基准在分析个性化智能代理推理与规划能力方面的有效性与严谨性。

Comments Please use and cite the V3 version of this work, which includes updated correct author ordering and expanded error analysis in the appendix

2604.05306 2026-05-15 cs.LG cs.AI cs.CL 版本更新

LLMs Should Express Uncertainty Explicitly

Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

发表机构 * University of California, Berkeley（加州大学伯克利分校）； Virginia Tech（弗吉尼亚理工大学）

AI总结这篇论文探讨了如何通过后训练使大语言模型（LLMs）在回答中显式表达其不确定性，以减少过于自信却错误的回答。研究提出两种方法：一种是在推理结束时让模型生成置信度评分，另一种是在推理过程中插入不确定性标记。实验表明，这两种方法都能有效降低错误率并提升回答质量，同时可用于增强检索增强生成（RAG）的效果。研究还分析了两种方法对模型内部结构的影响，揭示了它们在不同层面上优化模型判断能力的机制。

2603.27517 2026-05-15 cs.CR cs.AI 版本更新

A Security Analysis of the OpenClaw AI Agent Framework

Surada Suwansathit, Yuxuan Zhang, Guofei Gu

发表机构 * SUCCESS Lab（SUCCESS实验室）； Texas A&M University（德克萨斯大学）

AI总结本文对开源AI代理框架OpenClaw进行了安全分析，揭示了其架构中由于分层信任机制导致的安全隐患。研究通过系统梳理470条安全公告，发现漏洞主要沿系统架构层和攻击技术两个维度分布，并指出远程代码执行、命令过滤机制缺陷以及插件渠道恶意技能分发等关键问题。研究结果表明，OpenClaw在各层之间缺乏统一的策略控制，导致跨层攻击难以通过局部修复解决。

2603.11045 2026-05-15 cs.LG cond-mat.mtrl-sci cs.AI cs.CV physics.ins-det 版本更新

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette

发表机构 * Princeton University（普林斯顿大学）

AI总结本文提出了一种名为NeFTY的神经场热层析成像方法，用于解决无标签的三维逆热传导问题。该方法通过将扩散率表示为基于坐标的连续神经网络，并在每次优化步骤中使用可微分的隐式欧拉热求解器，确保控制方程在离散化层面精确成立，而非作为软约束。实验表明，NeFTY在合成三维基准测试和真实热成像数据中均显著优于传统物理信息神经网络和体素网格方法，在缺陷分割和深度估计方面表现出优越性能。

Comments 37 pages, 19 figures

2603.04601 2026-05-15 cs.SE cs.AI cs.CL 版本更新

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Hung Tran, Langston Nashold, Rayan Krishnan, Antoine Bigeard, Alex Gu

发表机构 * Massachusetts Institute of Technology（麻省理工学院）

AI总结本文介绍了Vibe Code Bench，一个用于评估AI模型在端到端网页应用开发能力的新基准。该基准包含100个网页应用规范，涵盖964个基于浏览器的工作流程，通过自主浏览器代理对生成的应用进行评估。研究发现，当前最先进的模型在测试集上仅达到61.8%的准确率，表明端到端应用开发仍是AI的挑战性任务；同时，研究还揭示了生成过程中的自测试能力和评估者选择对结果的重要影响，并提供了新的数据集、评估流程以及模型对比分析结果。

Comments 23 pages, 8 figures. Accepted to ACM CAIS 2026. Live leaderboard: https://www.vals.ai/benchmarks/vibe-code. Benchmark first released Nov 2025

2603.02115 2026-05-15 cs.RO cs.AI cs.LG 版本更新

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons

Anthony Liang, Yigit Korkmaz, Jiahui Zhang, Minyoung Hwang, Abrar Anwar, Sidhant Kaushik, Aditya Shah, Alex S. Huang, Luke Zettlemoyer, Dieter Fox, Yu Xiang, Anqi Li, Andreea Bobu, Abhishek Gupta, Stephen Tu, Erdem Biyik, Jesse Zhang

发表机构 * Univ. of Southern California（南加州大学）； UT Dallas（德克萨斯大学达拉斯分校）； MIT（麻省理工学院）； Indep. Researcher（独立研究员）； Univ. of Washington（华盛顿大学）； Ai2 ； NVIDIA（英伟达）

AI总结本文提出Robometer，一种通过轨迹比较扩展通用机器人奖励模型的可扩展框架。该方法结合轨迹内部的进度监督与轨迹之间的偏好监督，通过双目标训练：一方面利用专家数据进行帧级进度损失以锚定奖励幅度，另一方面通过轨迹对比偏好损失实现任务轨迹的全局排序约束，从而有效学习真实和增强失败轨迹的奖励函数。为支持该方法的大规模应用，研究者构建了包含超过一百万条轨迹的RBM-1M数据集，实验表明Robometer在多个基准和实际应用中表现出更优的泛化能力和学习效果。

Comments 33 pages, 17 figures

Journal ref RSS 2026

2602.13483 2026-05-15 cs.LG cs.AI 版本更新

Finding Interpretable Prompt-Specific Circuits in Language Models

Gabriel Franco, Lucas M. Tassis, Azalea Rohr, Mark Crovella

发表机构 * Department of Computer Science（计算机科学系）； Boston University（波士顿大学）； Faculty of Computing & Data Sciences（计算与数据科学学院）

AI总结本文研究了语言模型中用于执行任务的内部电路结构，重点在于理解注意力头为何关注特定的词对。为此，作者提出了改进的电路追踪方法 ACC++，该方法基于注意力因果通信原理，能够从单次前向传播中提取出具有因果关系的电路组件及其低维信号，无需替换模型或进行修补。实验表明，ACC++ 识别出的信号在多语言模型中具有可解释性，并揭示了模型对提示结构、语言差异等行为的敏感性，展示了该方法在解释模型行为方面的广泛适用性。

2601.22197 2026-05-15 cs.LG cs.AI eess.SP 版本更新

Neural Signals Generate Clinical Notes in the Wild

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； SANKEN, Osaka University（大阪大学SANKEN）

AI总结生成能够总结长期脑电图（EEG）记录中异常模式、诊断发现和临床解释的临床报告仍然是一项耗时的工作。本文提出CELM，首个能够对长时间、变长EEG记录进行多尺度端到端临床报告生成的临床EEG到语言基础模型。该模型结合了预训练的EEG模型和语言模型，通过构建包含9,048名患者约11,000小时EEG记录和9,922份临床报告的大规模数据集进行训练，并发布了自动化报告结构化流程作为基准，实验结果表明CELM在多项评估设置中均优于现有方法，且经临床专家评估，其生成的报告在临床连贯性、诊断可靠性及与专家解释的一致性方面表现更优。

2512.07805 2026-05-15 cs.LG cs.AI cs.CL 版本更新

Group Representational Position Encoding

Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao

发表机构 * Princeton University（普林斯顿大学）； University of California, Los Angeles（加州大学洛杉矶分校）； IIIS, Tsinghua University（清华大学人工智能研究院）

AI总结本文提出了一种基于群作用的统一位置编码框架 GRAPE，能够涵盖乘法和加法两类机制。乘法 GRAPE 通过指数映射生成保持模长的相对位置表示，能够精确还原 RoPE 并扩展至更复杂的子空间耦合结构；加法 GRAPE 则基于单秩或低秩单射作用，实现了 ALiBi 和 FoX 的精确复现并保持流式计算能力。GRAPE 为长上下文模型中的位置编码提供了理论严谨的设计空间，统一并扩展了现有方法。

Comments Published in ICLR 2026. Project Page: https://github.com/model-architectures/GRAPE

2512.01977 2026-05-15 eess.SY cs.AI cs.SY 版本更新

AI-Driven Optimization under Uncertainty for Mineral Processing Operations

William Xu, Amir Eskanlou, Mansur Arief, David Zhen Yin, Jef K. Caers

发表机构 * Materials Science & Engineering, Stanford University（材料科学与工程系，斯坦福大学）； Earth & Planetary Sciences, Stanford University（地球与行星科学系，斯坦福大学）； Aeronautics & Astronautics, Stanford University（航空与宇航科学系，斯坦福大学）

AI总结为满足清洁能源技术对关键矿产日益增长的需求，矿产加工能力需迅速提升，但其效率受到原料波动和工艺动态复杂性带来的不确定性限制。本文提出一种基于人工智能的方法，将矿产加工建模为部分可观察马尔可夫决策过程（POMDP），以在不确定性条件下优化工艺操作。通过在模拟浮选单元中的应用，该方法展示了在降低不确定性与优化工艺协同进行方面的优势，有望在最大化净现值等整体目标上优于传统方法，为实验室和工业规模的矿产加工优化提供了数学与计算框架。

Comments 13 pages, 15 figures, published in Sustainable Earth Resources Communications (SERC)

Journal ref Sustain. Earth Resour. Commun. 2025, 1(2): 100-112

2510.16196 2026-05-15 cs.CV cs.AI 版本更新

Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI

Zheng Huang, Enpei Zhang, Weikang Qiu, Yinghao Cai, Carl Yang, Elynn Chen, Xiang Zhang, Rex Ying, Dawei Zhou, Yujun Yan

发表机构 * Dartmouth College（达特茅斯学院）； Yale University（耶鲁大学）； Emory University（埃默里大学）； New York University（纽约大学）； UNC Charlotte（北卡罗来纳大学柴郡分校）； Virginia Tech（弗吉尼亚理工大学）

AI总结本文研究如何从功能性磁共振成像（fMRI）信号中重建视觉刺激，以理解大脑如何编码视觉信息。研究发现，fMRI信号与语言模型的文本空间更为相似，而非基于视觉或图文联合的空间，并提出应通过结构化文本空间来更好地表示视觉刺激的组成特性。基于这一发现，作者提出了PRISM模型，通过将fMRI信号投影到结构化文本空间，并结合对象生成和属性关系搜索模块，显著提升了图像重建质量，在真实数据集上实现了感知损失的降低。

2510.00231 2026-05-15 cs.LG cs.AI 版本更新

The Pitfalls of KV Cache Compression

Alex Chen, Renato Geh, Aditya Grover, Guy Van den Broeck, Daniel Israel

发表机构 * University of California, Los Angeles（加州大学洛杉矶分校）

AI总结本文探讨了KV缓存压缩在实际应用场景中的潜在问题，特别是在多指令提示任务中可能引发的性能下降。研究评估了五种KV缓存压缩方法在大型语言模型中的表现，发现某些指令在压缩后性能急剧下降，甚至被模型完全忽略，并以系统提示泄露为例，分析了压缩对指令遵循能力的影响。文章进一步指出了影响泄露现象的关键因素，并提出了改进KV缓存淘汰策略的简单方法，以提升多指令任务的整体表现。

Comments In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics, ACL 2026

2505.23912 2026-05-15 cs.CL cs.AI 版本更新

LoVeC: Reinforcement Learning for Better Verbalized Confidence in Long-Form Generations

Caiqi Zhang, Xiaochen Zhu, Chengzu Li, Nigel Collier, Andreas Vlachos

发表机构 * University of Cambridge（剑桥大学）

AI总结本文提出 LoVeC，一种基于强化学习的方法，用于在长文本生成过程中动态添加可解释的置信度评分，以提升生成内容的事实准确性。该方法克服了现有方法在计算效率和任务泛化上的不足，能够在长形式问答任务中实现更高效、更鲁棒的置信度估计。实验表明，LoVeC 在多个数据集上表现出更优的校准能力和跨领域泛化性能，且效率比传统方法高20倍。

Comments ACL 2026 Main

2505.17353 2026-05-15 cs.CV cs.AI cs.LG eess.IV 版本更新

Dual Ascent Diffusion for Inverse Problems

Minseo Kim, Axel Levy, Gordon Wetzstein

发表机构 * Stanford University（斯坦福大学）

AI总结本文研究了如何利用扩散模型解决逆问题中的病态问题，提出了一种基于对偶上升优化框架的新方法。该方法在图像恢复任务中表现出更优的图像质量、更强的噪声鲁棒性以及更快的计算速度，同时能更真实地反映观测数据。该工作为逆问题求解提供了更高效且准确的解决方案。

Comments Project page: https://soniaminseokim.github.io/ddiff/

2505.11765 2026-05-15 cs.MA cs.AI cs.LG 版本更新

OMAC: A Holistic Optimization Framework for LLM-Based Multi-Agent Collaboration

Shijun Li, Hilaf Hasson, Joydeep Ghosh

发表机构 * Department of Electrical and Computer Engineering, The University of Texas at Austin, Austin, United States（得克萨斯大学奥斯汀分校电子与计算机工程系）； Intuit AI Research, Mountain View, United States（Intuit AI研究）

AI总结本文提出了一种名为OMAC的综合性优化框架，旨在提升基于大语言模型（LLM）的多智能体系统（MAS）的协作性能。该框架从五个关键优化维度出发，涵盖智能体功能与协作结构，并设计了语义初始化器和对比比较器两个核心组件，分别用于单维度优化和多维度联合优化。实验表明，OMAC在多种任务中优于现有方法，展示了其在系统设计与优化方面的有效性与通用性。

Comments Accepted as a Spotlight paper at ICML 2026

2502.16060 2026-05-15 cs.LG cs.AI eess.SP 版本更新

Tokenizing Single-Channel EEG with Time-Frequency Motif Learning

Jathurshan Pradeepkumar, Xihao Piao, Zheng Chen, Jimeng Sun

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； SANKEN, Osaka University（大阪大学SANKEN）

AI总结本文提出了一种名为TFM-Tokenizer的新颖EEG分词框架，通过从单通道脑电图信号中学习时间-频率模式词汇并将其编码为离散标记，解决了EEG分词这一重要难题。该方法采用双路径架构与时间-频率掩码机制，能够生成鲁棒的模式表示，并适用于多种下游模型，包括轻量级变压器和现有基础模型。实验表明，该分词器在多个EEG基准数据集上显著提升了性能，具有更好的泛化能力和设备适应性。

Comments Accepted to ICLR 2026

2502.00270 2026-05-15 cs.LG cs.AI stat.ML 版本更新

DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks

Zhiliang Chen, Gregory Kang Ruey Lau, Chuan-Sheng Foo, Bryan Kian Hsiang Low

发表机构 * National University of Singapore（新加坡国立大学）； Agency for Research, Science, Technology and Research (A*STAR)（研究、科技与研发机构）

AI总结本文研究了如何在未知的下游评估任务下优化大型语言模型的训练数据混合问题。由于实际任务数据往往不可见，传统数据选择方法难以适用，作者提出了一种基于反馈的优化方法DUET，结合影响函数与贝叶斯优化，实现了无需任务数据先验知识的全局到局部的数据混合优化。实验表明，DUET在多种语言任务中优于现有方法，展示了其在未知任务设置下的有效性。

Comments Accepted to ICLR 2026 main conference

2411.18104 2026-05-15 cs.CL cs.AI cs.LG 版本更新

Training and Evaluating Language Models with Template-based Data Generation

Yifan Zhang

发表机构 * University of California Los Angeles（加州大学洛杉矶分校）

AI总结本文针对大语言模型在复杂多步骤推理任务（如数学问题求解）中的不足，提出了一种基于模板的数据生成方法（TDG），利用前沿大模型GPT-4自动生成参数化元模板，从而合成大量高质量的问题与解答。研究构建了包含700多万道小学数学题的TemplateMath Part I：TemplateGSM数据集，每个问题均配有可编程验证的解法，有效解决了数据稀缺问题，并为模型对齐提供了基于可验证奖励的强化学习机制，推动了具备强大推理能力的新一代大语言模型的发展。

Comments Published in ICLR 2025 DATA-FM Workshop. Project Page: https://github.com/iiis-ai/TemplateMath

2408.11186 2026-05-15 cs.MA cs.AI math.OC 版本更新

Sequential Resource Trading Using Comparison-Based Gradient Estimation

Surya Murthy, Mustafa O. Karabag, Ufuk Topcu

发表机构 * The University of Texas at Austin（德克萨斯大学奥斯汀分校）

AI总结本文研究了两个理性代理在有限资源类别间进行的多议题序列交易问题，其中一方代理无法获知另一方的效用函数，仅能通过接受或拒绝的反馈进行交互。作者提出了一种基于比较的梯度估计算法，通过将反馈视为状态间的比较，逐步估计响应代理的梯度方向，从而系统地优化交易方案。该方法保证每次接受的交易都能严格提升双方效用，并在有限次拒绝后确定帕累托最优或达成互利交易，实验表明该方法在多种场景下具有更高的社会福利和更少的交易次数。