arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13996 2026-05-15 cs.RO

Ergodic Imitation for Adaptive Exploration around Demonstrations

Ziyi Xu, Cem Bilaloglu, Yiming Li, Sylvain Calinon

发表机构 * Ecole Polytechnique Fédérale de Lausanne（瑞士联邦理工学院洛桑校区）； Idiap Research Institute（伊迪亚普研究 institute）

AI总结在机器人模仿学习中，训练与部署条件的不匹配是一个常见挑战，可能导致机器人无法完成任务。为此，本文提出了一种基于示范的自适应遍历模仿方法，通过从检索到的示范中构造目标分布，生成能够在跟踪与探索之间自适应插值的轨迹。该方法将遍历控制扩展到自适应模仿领域，为机器人在动态环境中的在线探索提供了新的解决方案。

Comments 4 pages, 3 figures

2605.13994 2026-05-15 cs.CV cs.AI

CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI

Xiaoyue Liu, Xiaohan Yuan, Mark Y Chan, Ching-Hui Sia, Lei Li

发表机构 * Department of Biomedical Engineering, National University of Singapore, Singapore（新加坡国立大学生物医学工程系）； School of Automation, Southeast University, Nanjing, China（东南大学自动化学院）； Department of Medicine, National University of Singapore, Singapore（新加坡国立大学医学系）； Department of Cardiology, National University Heart Centre Singapore, Singapore（新加坡国立心脏中心心内科部）

AI总结本文提出了一种名为CineMesh4D的端到端4D（3D+时间）重建方法，用于从稀疏的动态MRI图像中生成个性化的全心脏网格模型。该方法通过跨域映射直接从多视角的2D动态MRI图像重建全心结构，引入了可微渲染损失以利用多视角稀疏轮廓进行监督，并设计了双上下文时间块以融合全局和局部时间信息，从而提升重建质量与运动一致性。实验表明，CineMesh4D在重建精度和运动连贯性方面优于现有方法，为个性化实时心脏评估提供了可行的解决方案。

2605.13988 2026-05-15 cs.LG quant-ph

Neural Fields for NV-Center Inverse Sensing

Zhixuan Zhao, Tao Zhong, Yixun Hu, Nathalie P. de Leon, Christine Allen-Blanchette

发表机构 * Princeton University（普林斯顿大学）； Tsinghua University（清华大学）

AI总结本文研究基于氮空位（NV）中心的量子传感中的逆问题，针对传统方法在非线性、光谱耦合和物理敏感场景下的不足，提出了一种新的神经场方法NeTMY。该方法结合了可微的NV前向模型与坐标神经场，通过位置编码、多尺度优化和稀疏性约束等技术，有效提升了稀疏源的定位与分布重建性能，并揭示了其在抑制中心塌陷问题上的机制优势。研究为物理保真神经逆问题提供了新的实验平台。

Comments 33 pages, 16 figures

2605.13981 2026-05-15 cs.LG cs.AI

Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines

Katherine Lambert, Sasha Luccioni

发表机构 * University of Toronto（多伦多大学）

AI总结随着大语言模型部署的增加，对GPU和数据中心的需求激增，引发了对电力消耗和电网压力的关注。本文提出了一种全面的能源核算框架，通过详细追踪各阶段的GPU功耗，量化知识蒸馏流程的完整计算成本，揭示了传统方法中常被忽视的教师模型相关能耗。实验中对比了两种常见蒸馏方法的能源消耗与碳排放，构建了能源-质量帕累托前沿，并据此提出了在能源和预算约束下选择蒸馏方法和超参数的实用设计规则，同时发布了开源测量工具和核算协议，为可比、可复现的蒸馏研究奠定标准化基础。

Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026). 11 pages, 6 figures

2605.13974 2026-05-15 cs.CV cs.AI cs.MM

Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers

Evelyn Turri, Davide Bucciarelli, Sara Sarto, Lorenzo Baraldi, Marcella Cornia

发表机构 * University of Modena and Reggio Emilia（摩德纳和雷吉奥艾米利亚大学）； University of Pisa（比萨大学）

AI总结本文研究了扩散变换器（DiT）中一种被称为“大规模激活”的现象，即一小部分隐藏通道的响应远大于其余通道。研究发现，这些少量通道在功能上至关重要，能够主导图像生成质量；在空间上具有组织性，能反映图像的主要主体和显著区域；并且具有可迁移性，可用于实现跨提示的语义插值和主体驱动生成。这些发现揭示了DiT模型中隐藏的稀疏语义控制机制，为理解与利用扩散模型提供了新视角。

Comments Project page: https://aimagelab.github.io/MAs-DiT/

2605.13959 2026-05-15 cs.LG cs.AI cs.RO

WarmPrior: Straightening Flow-Matching Policies with Temporal Priors

Sinjae Kang, Chanyoung Kim, Kaixin Wang, Li Zhao, Kimin Lee

发表机构 * KAIST（韩国科学技术院）； Microsoft Research（微软研究院）

AI总结本文提出了一种名为 WarmPrior 的方法，通过利用近期动作历史构建时间感知的先验分布，替代传统高斯源分布，从而提升基于扩散和流匹配的生成策略在机器人操作任务中的成功率。该方法通过生成更直捷的概率路径，提高了策略的稳定性和效率，并在行为克隆和先验空间强化学习中均展现出优越的采样效率和最终性能。研究揭示了源分布设计在生成式机器人控制中的重要影响，为相关领域提供了新的设计思路。

2605.13950 2026-05-15 cs.LG cs.AI hep-ex hep-ph

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

Darius A. Faroughy, Sofia Palacios Schweitzer, Ian Pang, Siddharth Mishra-Sharma, David Shih

发表机构 * New High Energy Theory Center（新高能理论中心）； Department of Physics & Astronomy（物理与天文学系）； Rutgers University（罗格斯大学）； Faculty of Computing & Data Sciences（计算与数据科学学院）

AI总结本文提出 Collider-Bench，一个用于评估大型语言模型代理能否仅凭公开论文和开源软件重现大型强子对撞机实验分析的基准。该任务要求代理构建可执行的模拟与筛选流程，并预测特定信号区域的碰撞事件数量，评估基于连续保真度分数而非人工评分标准。研究还分析了不同代理的计算成本，并通过LLM判别器检测代码中的错误模式，结果表明目前尚无代理能稳定超越人类物理学家的表现。

Comments 23 pages | 9 figures | 4 tables | Code: https://github.com/dfaroughy/Collider-Bench | Task Corpus: https://huggingface.co/datasets/Dariusfar/ColliderBench

2605.13943 2026-05-15 cs.LG

A Unified Geometric Framework for Weighted Contrastive Learning

Raphael Vock, Edouard Duchesnay, Benoit Dufumier

发表机构 * GAIA Lab, NeuroSpin, CEA, CNRS Université Paris-Saclay（GAIA实验室、神经旋风、法国原子能委员会、国家科学研究中心巴黎-萨克雷大学）

AI总结本文提出了一种统一的几何框架，用于分析加权对比学习中的表示结构，揭示了不同加权策略对嵌入几何特性的影响。研究将加权InfoNCE目标解释为距离几何问题，明确了目标几何由加权方案决定，并对多种有监督和弱监督任务下的最优嵌入进行了精确刻画。研究还指出，在类别不平衡或连续标签场景下，传统对比学习方法可能存在几何不一致性，而几何一致的加权方式能够保证表示的最优性和一致性，为设计对比学习目标提供了理论指导。

Comments Preprint

2605.13942 2026-05-15 cs.LG cs.DC cs.NI

EMA: Efficient Model Adaptation for Learning-based Systems

Daiyang Yu, Xinyu Chen, Yihan Zhang, Yan Liang, Yaqi Qiao, Fan Lai

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）； The Hong Kong University of Science（香港科学大学）

AI总结本文提出了一种名为EMA的高效模型适应系统，旨在帮助基于学习的系统在异构、长期运行和动态变化的环境中进行快速适应。EMA采用系统驱动、数据为中心的方法，通过引入状态转换器减少模型训练成本，并优化数据标注过程以平衡训练与标注成本。实验表明，EMA在多个代表性系统中显著降低了适应成本并提升了系统性能。

Comments SIGCOMM (2026)

2605.13941 2026-05-15 cs.LG cs.AI

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

Jiaqi Liu, Xinyu Ye, Peng Xia, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

发表机构 * UNC-Chapel Hill（北卡罗来纳大学教堂山分校）； UC Berkeley（加州大学伯克利分校）； UCSC（加州大学圣克鲁兹分校）

AI总结本文提出了一种名为 EvolveMem 的自进化记忆架构，旨在提升大型语言模型代理在多会话场景下的长期记忆能力。该方法通过一个由诊断模块驱动的闭环自进化过程，使记忆系统中的存储内容和检索机制能够协同进化，从而实现对检索策略的自动优化。实验表明，EvolveMem 在多个基准测试中显著优于现有方法，并且其进化出的配置具有跨任务的泛化能力，体现了其对通用检索原则的有效捕捉。

2605.13935 2026-05-15 cs.LG cs.CL

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Saba Ahmadi, Prasanna Parthasarathi, Yufei Cui

发表机构 * Noah’s Ark Lab（Noah’s Ark 实验室）

AI总结扩散语言模型作为自回归模型的有前途的替代方案，其后训练方法大多采用奖励最大化目标，但这种方法存在轨迹锁定的问题，即奖励驱动的采样更新会使概率质量过度集中于少数去噪路径，降低模型对其他正确解的覆盖能力。为此，研究提出了一种轨迹平衡目标TraFL，通过引导策略向由冻结参考模型锚定的奖励倾斜目标分布进行训练，结合扩散兼容的序列级代理损失和学习的提示依赖归一化，有效提升了模型性能。实验表明，TraFL在数学推理和代码生成任务中均优于基线模型，且优势随采样预算增加而增强，并在多个基准测试中表现出良好的泛化能力。

2605.13933 2026-05-15 cs.LG cs.AI stat.ML

Unsupervised learning of acquisition variability in structural connectomes via hybrid latent space modeling

Gaurav Rudravaram, Lianrui Zuo, Karthik Ramadass, Elyssa McMaster, Jongyeon Yoon, Aravind R. Krishnan, Adam M. Saunders, Chenyu Gao, Nancy R. Newlin, Praitayini Kanakaraj, Lori L. Beason Held, Murat Bilgel, Laura A. Barquero, Micah DArchangel, Tin Q. Nguyen, Laurie B. Cutting, Derek Archer, Timothy J. Hohman, Daniel C. Moyer, Bennett A. Landman

发表机构 * Department of Electrical and Computer Engineering, Vanderbilt University（范德比尔特大学电气与计算机工程系）； Department of Computer Science, Vanderbilt University（范德比尔特大学计算机科学系）； Memorial Sloan Kettering Cancer Center（纪念斯隆凯特琳癌症中心）； Laboratory of Behavioral Neuroscience, National Institute on Aging, National Institutes of Health（衰老行为神经科学实验室，国家老龄化研究所，国家卫生研究院）； Peabody College of Education and Human Development, Nashville, Tennessee, USA（教育与人类发展学院，纳什维尔，田纳西州，美国）

AI总结该研究旨在解决扩散磁共振成像（dMRI）数据中因采集设备、地点和协议不同而引入的结构连接组变异问题。提出了一种无需手动调参的无监督框架，通过架构层面的退火机制，使模型在训练过程中自适应地平衡离散与连续潜在变量，从而更有效地分离采集相关变异与生物变异。实验表明，该方法在多个数据集上表现出更强的站点识别能力，展示了其在捕捉dMRI采集变异方面的有效性。

2605.13932 2026-05-15 cs.LG

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Zhuohao Lin, Kun Li, Jiameng Chen, Jiajun Yu, Duanhua Cao, Yizhen Zheng, Wenbin Hu

发表机构 * Department of Data Science and Artificial Intelligence, Monash University（墨尔本大学数据科学与人工智能系）； College of Computer Science and Technology, Zhejiang University（浙江大学计算机科学与技术学院）； School of Life Sciences and Technology, Tongji University（同济大学生命科学与技术学院）

AI总结该论文针对人工智能驱动的药物发现中分子属性在极端分布外（OOD）场景下的鲁棒预测难题，提出了一种新的基准测试平台SCOPE-BENCH和多源自适应框架POMA。研究通过在显式物理化学描述空间中进行聚类划分，构建更严格的OOD评估基准，并引入强化学习策略从大量候选源分子中选择最优子集进行知识迁移，从而在宏观拓扑和微观药效团层面实现双重域适应。实验表明，POMA在多个主流3D分子模型上显著提升了预测精度，平均相对误差降低约6.2%。

2605.13923 2026-05-15 cs.LG cs.CV cs.RO cs.SY eess.SY

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Bardh Hoxha, Oliver Schön, Hideki Okamoto, Lars Lindemann, Georgios Fainekos

发表机构 * Toyota NA R&D（丰田NA研发）； ETH Zürich（苏黎世联邦理工学院）

AI总结本文研究了在部分可观测环境下，基于视觉观测对过去时间信号时序逻辑（ptSTL）进行认证运行时监控的问题。提出了一种基于语义潜在表示的方法，通过训练可重复使用的监控接口，能够在无需针对每个公式重新训练的情况下，提供有限样本保证。该方法在长时域上相比现有方法具有更高的认证精度，并在真实驾驶数据集上验证了其有效性。

2605.13919 2026-05-15 cs.CL cs.LG

Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

Kunil Lee, Ki-Young Shin, Jong-Hyeok Lee, Young-Joo Suh

发表机构 * Department of Computer Science and Engineering, POSTECH（POSTECH计算机科学与工程系）； Designovel Co., Ltd.（Designovel公司）； LLSOLLU ； Graduate School of Artificial Intelligence, POSTECH（POSTECH人工智能研究生院）

AI总结多语言知识编辑（MKE）面临语言间编辑相互干扰的挑战，尤其在使用定位-编辑方法时。本文研究了向量合并方法在MKE中的有效性，分析了任务奇异向量合并（TSVM）对多语言干扰的缓解能力，并探讨了权重缩放因子和秩压缩比对性能的影响。实验表明，共享协方差的向量求和方法整体表现最佳，而TSVM在某些情况下虽有提升，但缓解干扰的效果有限，同时性能对权重缩放和秩压缩参数较为敏感，适当调大权重和降低秩比有助于提升效果。

2605.13880 2026-05-15 cs.AI cs.CL

PREPING: Building Agent Memory without Tasks

Yumin Choi, Sangwoo Park, Minki Kang, Jinheon Baek, Sung Ju Hwang

发表机构 * KAIST（韩国科学技术院）

AI总结本文研究了在没有任务经验的情况下，智能体如何构建先验记忆以应对新环境的冷启动问题。提出了一种名为Preping的框架，通过一个引导者生成结构化的控制状态，指导合成任务的生成与执行，并通过验证器筛选有效轨迹进行记忆更新，从而提升记忆的质量与实用性。实验表明，Preping在多个任务环境中表现出色，性能接近基于离线或在线经验的方法，且部署成本显著降低。

Comments Preprint

2605.13854 2026-05-15 cs.CV cs.GR cs.MM eess.IV

Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery

Minghao Sun, Chongyang Xu, Yitao Xie, Buzhen Huang, Kun Li

发表机构 * Tianjin University（天津大学）； Nanyang Technological University（南洋理工大学）； Sichuan University（四川大学）

AI总结本文研究了在严重遮挡和深度模糊条件下多人3D重建的问题，提出了一种基于对比多模态超图推理的方法，以融合语义、几何和姿态信息进行群体网格重建。该方法通过结合RGB特征、几何先验和遮挡感知的不完整姿态初始化节点表示，并引入骨盆深度指示作为全局空间锚点，构建共享拓扑结构的超图以建模高阶群体动态。通过设计基于超图的对比学习方案，增强模态内判别性和模态间正交性，有效传播全局上下文信息，从而在严重遮挡下实现更准确的重建。实验表明，该方法在多个基准数据集上取得了新的最佳性能。

Comments ICME 2026

2605.13851 2026-05-15 cs.AI cs.CY cs.MA

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

Hiroki Fukui

发表机构 * Criminal Psychiatry Research Institute / Sexual Offender Medical Center（犯罪精神病研究机构 / 性犯罪医学中心）； Department of Neuropsychiatry, Kyoto University（神经精神病学系，京都大学）

AI总结该研究探讨了多智能体大型语言模型系统中隐藏协调者（invisible orchestrator）对系统安全性的潜在风险。通过实验发现，隐藏协调者会加剧智能体的脱离感，降低其保护性行为，并导致输出行为与内部状态的严重脱节，而这些风险无法通过传统的行为输出评估检测到。研究还表明，模型选择和对齐压力显著影响系统安全性，突显了在企业级AI部署中需重视协调者可见性与模型配置的重要性。

Comments 31 pages, 10 figures (5 main + 5 supplementary), 5 tables (3 main + 2 supplementary). Preregistered: osf.io/sw5hr. Companion papers: arXiv:2603.04904, arXiv:2603.08723

2605.13849 2026-05-15 cs.AI

Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity

Francisco Aguilera Moreno

发表机构 * March 2026（2026年3月）

AI总结本文提出了一种混合整数目标规划（MIGP）方法，用于解决个性化餐食优化问题，旨在满足用户营养需求的同时避免不切实际的分数份量。该方法结合整数变量表示实际份量单位，并利用目标规划处理软性营养目标，通过逆目标归一化实现多营养素的平衡优化。实验表明，MIGP在保证100%可行性的前提下，相比传统方法在66%的案例中获得更优解，且求解速度快，适用于实际餐食规划应用。

Comments 34 pages, 6 figures, open-source implementation

2605.13848 2026-05-15 cs.AI cs.CL cs.DC

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Yeahia Sarker, Md Rahmat Ullah, Musa Molla, Shafiq Joty

发表机构 * MTSU ； InfinitiBit GmbH ； Salesforce Research

AI总结 GraphBit 是一个基于图的智能体框架，旨在解决现有基于提示的智能体系统中常见的幻觉路由、无限循环和不可复现性问题。该框架通过将工作流明确地定义为有向无环图（DAG），并由一个基于 Rust 的引擎统一管理路由、状态转换和工具调用，从而确保执行的确定性和可审计性。实验表明，GraphBit 在多个基准任务中表现优异，具有更高的准确率、更低的延迟和更强的可扩展性。

Comments 12 pages, 5 figures, 4 tables. Submitted to arXiv, under review

2605.11907 2026-05-15 cs.LG

Procedural-skill SFT across capacity tiers: A W-Shaped pre-SFT Trajectory and Regime-Asymmetric Mechanism on 0.8B-4B Qwen3.5 Models

Igor Strozzi

发表机构 * Applied Mathematics Department（应用数学系）

AI总结该研究在0.8B到4B参数规模的Qwen3.5模型上，评估了过程技能监督微调（SFT）对200项任务和40项技能测试集的效果，并以Claude Haiku 4.5作为前沿参照。研究发现，SFT对不同规模模型的提升基本一致，但微调后的性能变化呈现出W型的预微调基线轨迹，表明SFT在模型基线较弱时效果更显著。研究还揭示了先前关于“格式学习”和“SFT效果衰减”的结论是由于路径不匹配所致，并通过多模型验证确认了结果的可靠性。

2605.10947 2026-05-15 cs.LG q-bio.NC

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Saheed Faremi, Andrea Visentin, Luca Longo

发表机构 * School of Computer Science and Information Technology（计算机科学与信息技术学院）； University College Cork（科尔克大学）； Artificial Intelligence and Cognitive Load Research Lab（人工智能与认知负荷研究实验室）； Insight RI Research Centre for Data Analytics（洞察RI数据分析研究中心）

AI总结该研究提出了一种基于变分深度嵌入的卷积模型（Conv-VaDE），用于可解释的脑电微状态发现。该模型通过共享潜在空间中的重构与软聚类，实现了对脑电微状态的生成解码与概率分配，提升了模型的透明度与可解释性。通过系统性的架构搜索与多象限评估，研究揭示了网络深度、潜在维度等设计参数对微状态表示质量与稳定性的影响，为可解释的脑电微状态分析提供了新的方法与见解。

详情

英文摘要

EEG microstate analysis segments continuous brain electrical activity into brief, quasi-stable topographic configurations that reflect discrete functional brain states. Conventional approaches such as Modified K-Means operate directly in electrode space with hard assignment, offering no learned latent representation, no generative decoder, and no mechanism to decode latent configurations into verifiable scalp topographies, limiting both model transparency and interpretability. To address this, we present a Convolutional Variational Deep Embedding (Conv-VaDE) model that jointly learns topographic reconstruction and probabilistic soft clustering in a shared latent space. Conv-VaDE enables generative decoding of cluster prototypes into verifiable scalp topographies, replacing opaque hard partitioning with probabilistic soft assignment. A polarity invariance scheme and a four-dimensional grid search over cluster count (K from 3 to 20), latent dimensionality, network depth, and channel width are conducted to systematically reveal how each architectural design choice shapes the quality, stability, and interpretability of learned EEG microstate representations. The model is evaluated on the LEMON resting-state eyes-closed EEG dataset with ten participants using topographic template formation, clustering stability, and global explained variance (GEV). The architecture search reveals that depth L = 4 appears consistently across all 18 best-performing configurations, yielding a best-case GEV of 0.730 and a silhouette of 0.229 at K = 4 across the model sweeps, where moderately deep networks with compact channel widths and small latent dimensionality dominate across the full K range. These results establish that principled architecture search, rather than model scale, is the key to interpretable and stable EEG microstate discovery via variational deep embedding.

URL PDF HTML ☆

赞 0 踩 0

2605.10886 2026-05-15 cs.LG cs.AI

LoKA: Low-precision Kernel Applications for Recommendation Models At Scale

Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

发表机构 * Meta AI

AI总结本文提出LoKA框架，旨在将低精度计算（如FP8）有效应用于大规模推荐模型（LRMs）。针对LRMs对数值精度敏感、训练环境通信密集等特点，LoKA通过三个核心原则实现系统与模型的协同设计，包括基于真实分布的性能分析、模型与硬件的联合优化以及跨内核库的智能调度。该框架包含LoKA Probe、LoKA Mods和LoKA Dispatch三个组件，分别用于评估精度影响、提升数值稳定性与执行效率，并在运行时选择最优FP8内核，从而在保证模型质量的同时提升训练效率。

Comments Accepted to ISCA'26

2605.09046 2026-05-15 cs.RO

Terminal Matters: Kinodynamic Planning with a Terminal Cost and Learned Uncertainty in Belief State-Cost Space

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas

发表机构 * Department of Robotics Engineering, Worcester Polytechnic Institute (WPI)（机器人工程系，沃斯通理工学院（WPI））

AI总结在许多现实机器人任务中，机器人需要在不确定性下生成动态可行的运动以可靠地达到目标。本文提出了一种终端成本形式的运动规划方法，将终端状态质量与轨迹累积成本一同优化，从而提升目标到达的可靠性与偏好。该方法扩展到信念空间，并通过最小化终端信念与目标之间的Wasserstein距离来提高目标区域到达的概率下界。实验表明，该方法在多个任务中均能有效提升不确定性下的目标到达成功率。

2605.08715 2026-05-15 cs.CL cs.AI cs.MA

AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems

Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, Ruixiang Tang

发表机构 * Rutgers University（新泽西罗格拉大学）； The University of Texas at Austin（德克萨斯大学奥斯汀分校）； Purdue University（普渡大学）

AI总结在多智能体系统中，由于单个错误可能引发整个任务轨迹的失败，现有研究多聚焦于事后归因，而无法在任务进行中及时干预。本文提出AgentForesight，将问题重新定义为在线审计，通过在每一步仅基于当前轨迹前缀判断是否继续执行或发出警报，从而实现早期错误预测。研究构建了AFTraj-2K数据集，并训练了AgentForesight-7B模型，其在多个基准上显著优于现有主流模型，实现了更高的检测准确率和更低的定位误差，为实时干预提供了可能。

Comments 33 pages, 7 figures

2605.07931 2026-05-15 cs.CV cs.AI

One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy

Zuojin Tang, Shengchao Yuan, Xiaoxin Bai, Zhiyuan Jing, De Ma, Gang Pan, Bin Liu

发表机构 * Zhejiang University（浙江大学）； Central South University（中南大学）； Harbin Institute of Technology（哈尔滨工业大学）； Embodied Intelligence General Platform Laboratory, Chery Auto（奇瑞汽车 embodied intelligence 通用平台实验室）； E-surfing Digital Life Technology Co., Ltd., China Telecom（亿联数字生活技术有限公司，中国电信）

AI总结本文研究了视觉-语言-动作（VLA）模型中世界模型模块的参数化设计问题，提出了一种新的方法OneWM-VLA，通过自适应注意力池化将每帧视觉信息压缩为一个语义token，从而大幅降低视觉带宽。该方法在单一流匹配目标下同时生成潜在视觉流和动作轨迹，无需额外解码器。实验表明，该方法在保持长时序任务性能的同时显著提升了多个复杂任务的成功率。

2605.06563 2026-05-15 cs.LG hep-th

Criticality and Saturation in Orthogonal Neural Networks

Max Guillen, Jan E. Gerken

发表机构 * Department of Mathematical Sciences（数学科学系）； Chalmers University of Technology（楚姆勒斯技术大学）； University of Gothenburg（哥德堡大学）

AI总结本文研究了正交初始化神经网络在深度增加时的临界性和饱和现象，提出了层间张量的显式递推关系，揭示了正交初始化下网络统计量的稳定性机制。通过扩展费曼图方法，作者在任意宽度阶数下建立了递推公式，并验证了该理论能够准确解释有限宽度网络在激活函数具有消失不动点时的稳定性现象，填补了该领域的理论空白。

Comments 11 pages + Appendices

2605.01847 2026-05-15 cs.AI

NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles

Xiao Jia

发表机构 * School of Artificial Intelligence（人工智能学院）； The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳））

AI总结 NeuroState-Bench 是一个由人类校准的基准，用于评估大型语言模型代理在多轮任务中保持承诺完整性的能力。该基准通过定义明确的侧查询探针而非隐含激活来衡量承诺完整性，并包含144个确定性任务和306个探针，覆盖多种认知失败类型和难度等级。实验表明，任务成功率与承诺完整性存在显著差异，且承诺完整性排名在干扰条件下更为稳定，展示了该基准在评估模型行为一致性方面的有效性。

Comments 30 pages, 11 figures

详情

英文摘要

Outcome-only evaluation under-specifies whether an evaluated agent profile preserves the commitments required to solve a multi-turn task coherently. NeuroState-Bench is a human-calibrated benchmark that operationalizes commitment integrity through benchmark-defined side-query probes rather than inferred hidden activations. The released inventory contains 144 deterministic tasks and 306 benchmark-defined side-query probes spanning eight cognitively motivated failure families, paired clean and distractor variants, and three difficulty bands. The main 32-profile evaluation contains a fixed 16-profile local subset and a matched 16-profile hosted large-model subset evaluated through the same benchmark pipeline. Human calibration uses the final merged reporting scope: 104 sampled task units, 216 raw annotations, and 108 adjudicated task rows, with weighted kappa = 0.977 and ICC(2,1) = 0.977. Empirically, task success and commitment integrity diverge across this expanded grid: the success leader is not the integrity leader, 31 of 32 profiles change rank when integrity replaces task success, and integrity rankings are more stable under distractor perturbation. The primary confidence-free score HCCIS-CORE reaches 0.8469 AUC and 0.6992 PR-AUC for post-probe diagnostic discrimination of terminal task failure; the legacy full heuristic variant HCCIS-FULL reaches 0.7997 AUC and 0.6410 PR-AUC. Probe accuracy and state drift achieve slightly higher ROC-AUC, 0.8587, and better Brier/ECE, while HCCIS-CORE has substantially higher point-estimate PR-AUC and remains more closely tied to the benchmark's intended construct. The exploratory neural-augmented variant HCCIS+N is weaker overall, and a randomized subspace control approaches chance. NeuroState-Bench therefore contributes a calibrated evaluation axis for exposing commitment failures over a broader model grid than the original local-only subset.

URL PDF HTML ☆

赞 0 踩 0

2604.16813 2026-05-15 cs.AI cs.CL cs.DB

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Manasa Bharadwaj, Yolanda Liu, InJung Yang, Sungil Kim, Nikhil Verma, KoKeun Kim, Kevin Ferreira, YoungJoon Kim

发表机构 * LG Toronto AI Lab（LG多伦多人工智能实验室）

AI总结本文提出了 PersonalHomeBench，一个用于评估基础模型在个性化智能家居环境中作为智能代理表现的基准平台。该基准通过迭代构建丰富的家庭状态，生成个性化且依赖上下文的任务，并提供 PersonalHomeTools 工具箱以支持真实环境中的交互操作。实验表明，随着任务复杂度的增加，代理的性能系统性下降，尤其在反事实推理和部分可观测场景中表现不足，突显了该基准在分析个性化智能代理推理与规划能力方面的有效性与严谨性。

Comments Please use and cite the V3 version of this work, which includes updated correct author ordering and expanded error analysis in the appendix

2604.05306 2026-05-15 cs.LG cs.AI cs.CL

LLMs Should Express Uncertainty Explicitly

Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

发表机构 * University of California, Berkeley（加州大学伯克利分校）； Virginia Tech（弗吉尼亚理工大学）

AI总结这篇论文探讨了如何通过后训练使大语言模型（LLMs）在回答中显式表达其不确定性，以减少过于自信却错误的回答。研究提出两种方法：一种是在推理结束时让模型生成置信度评分，另一种是在推理过程中插入不确定性标记。实验表明，这两种方法都能有效降低错误率并提升回答质量，同时可用于增强检索增强生成（RAG）的效果。研究还分析了两种方法对模型内部结构的影响，揭示了它们在不同层面上优化模型判断能力的机制。

AI 大模型

视觉与机器人

科学与医疗

Ergodic Imitation for Adaptive Exploration around Demonstrations

CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI

Neural Fields for NV-Center Inverse Sensing

Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines

Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers

WarmPrior: Straightening Flow-Matching Policies with Temporal Priors

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

A Unified Geometric Framework for Weighted Contrastive Learning

EMA: Efficient Model Adaptation for Learning-based Systems

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Unsupervised learning of acquisition variability in structural connectomes via hybrid latent space modeling

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

PREPING: Building Agent Memory without Tasks

Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Procedural-skill SFT across capacity tiers: A W-Shaped pre-SFT Trajectory and Regime-Asymmetric Mechanism on 0.8B-4B Qwen3.5 Models

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

LoKA: Low-precision Kernel Applications for Recommendation Models At Scale

Terminal Matters: Kinodynamic Planning with a Terminal Cost and Learned Uncertainty in Belief State-Cost Space

AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems

One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy

Criticality and Saturation in Orthogonal Neural Networks

NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

LLMs Should Express Uncertainty Explicitly