arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2602.00834 2026-05-12 cs.LG cs.AI stat.ML

A Minimum Variance Path Principle for Accurate and Stable Score-Based Density Ratio Estimation

Wei Chen, Jiacheng Li, Shigui Li, Zhiqi Lin, Junmei Yang, John Paisley, Delu Zeng

AI总结本文针对基于分数的密度比估计方法在实践中存在的路径依赖性问题，提出了一种最小方差路径（MVP）原则，通过推导分数函数路径方差的闭式表达式，实现了对路径方差的优化。该方法利用可灵活参数化的库马拉吉混合模型自动学习低方差路径，无需人工设定，从而提升了估计的准确性和稳定性，并在多个基准任务上取得了新的最优结果。

2602.00327 2026-05-12 cs.AI cs.HC

SayNext-Bench: Why Do LLMs Struggle with Next-Utterance Anticipation?

Yueyi Yang, Haotian Liu, Fang Kang, Mengqi Zhang, Zheng Lian, Hao Tang, Haoyu Chen

AI总结该论文研究了大语言模型（LLMs）在预测人类对话中下一句发言时的困难，并提出了一个名为 SayNext-Bench 的基准测试，用于评估多模态大语言模型在不同场景下对上下文条件响应的预测能力。为支持该基准，研究构建了一个大规模多模态对话数据集 SayNext-PC，并设计了包含词汇相似性、情感意图一致性和模型对齐性的多层次评估框架。此外，作者提出 SayNext-Chat 模型，通过引入可学习的提示符融合感知线索与预测先验，显著提升了模型在预测任务中的表现，突显了多模态线索和主动预测机制在自然对话中的重要性。

2601.22904 2026-05-12 cs.CV cs.AI cs.LG

Hyperspherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Hun Chang, Byunghee Cha, Jong Chul Ye

AI总结本文提出了一种名为**Hyperspherical Autoencoder (HAE)**的框架，旨在提升图像重建与生成的保真度。该方法通过引入方向特征对齐目标和分层卷积块嵌入模块，实现了语义一致性和细节保留的平衡，并利用黎曼流匹配在超球面潜在空间上直接训练扩散变换器（DiT）。实验表明，该方法在生成和重建质量上均达到优异性能，验证了其在高保真图像生成任务中的有效性。

Comments 22 pages, and 20 figures

2601.22449 2026-05-12 cs.AI

Emergence of Physical Intelligence via Controllable Information Production

Tristan Shah, Stas Tiomkin

AI总结该研究提出了一种名为“可控信息生成”（CIP）的新方法，旨在无需外部奖励即可训练智能体，使其通过与环境的交互自发产生有用行为。CIP 基于动力系统和最优控制理论，通过衡量智能体生成信息的速率，实现了对可控复杂性的量化，避免了传统内在动机方法中的偏差问题。该方法将内在动机与最优控制统一于同一框架，揭示了价值函数结构与柯尔莫戈罗夫-辛艾熵之间的联系，并在机器人学习任务中表现出优于现有方法的性能，验证了物理智能来源于引导系统走向可控混沌边界的普适原理。

2601.22427 2026-05-12 cs.LG cs.AI

CoDCL: Counterfactual-Inspired Augmentation Contrastive Learning for Temporal Link Prediction in Social Networks

Hantong Feng, Duxin Chen, Wenwu Yu

AI总结本文提出了一种名为CoDCL的动态网络学习框架，用于解决社交网络中时间链预测的问题。该方法结合了反事实启发的数据增强与对比学习，旨在提升模型对随时间演变的复杂网络结构的适应能力。通过设计动态处理机制和高效的结构邻域探索策略，CoDCL能够生成高质量的反事实数据，从而更准确地捕捉交互模式的时间变化。实验表明，CoDCL在多个真实数据集上显著优于现有先进方法，验证了其有效性。

Comments This work has been submitted to the IEEE for possible publication

2601.22204 2026-05-12 cs.LG cs.DC

FedAdaVR: Adaptive Variance Reduction for Robust Federated Learning under Limited Client Participation

S M Ruhul Kabir Howlader, Xiao Chen, Yifei Xie, Lu Liu

AI总结本文提出了一种名为FedAdaVR的联邦学习算法，旨在解决由于客户端参与不充分导致的异构性问题。该方法结合自适应优化器和方差缩减技术，利用客户端历史更新来模拟其在当前训练轮次中的参与，从而提升模型训练的稳定性与收敛性。此外，还提出了FedAdaVR-Quant，通过量化存储客户端更新，大幅降低内存消耗，同时保持较高的模型性能。实验表明，FedAdaVR在多种数据集上均优于现有先进方法。

2601.22158 2026-05-12 cs.CV

One-step Latent-free Image Generation with Pixel Mean Flows

Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He

AI总结本文提出了一种名为“像素均流”（pMF）的一步式无潜在空间图像生成方法，旨在克服传统扩散/流模型依赖多步采样和潜在空间的限制。该方法通过将网络输出空间与损失空间分离，利用图像流形上的预测目标和速度空间中的均流损失进行优化，并引入图像流形与平均速度场之间的简单变换。实验表明，pMF在256x256和512x512分辨率的ImageNet数据集上取得了优异的生成效果，显著推进了一步式无潜在空间图像生成的研究进展。

Comments Tech report. Code at https://github.com/Lyy-iiis/pMF

2601.21971 2026-05-12 cs.RO cs.AI cs.LG

Supervised Mixture-of-Experts for Surgical Grasping and Retraction

Lorenzo Mazza, Ariel Rodriguez, Rayan Younis, Martin Lelis, Ortrun Hellig, Chenpan Li, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel

AI总结该研究提出了一种监督混合专家（MoE）架构，用于解决外科手术中的抓取与牵开任务，旨在提升机器人在复杂手术场景下的操作能力。通过结合轻量级的动作解码器策略，如Action Chunking Transformer（ACT），该方法仅需少量演示数据和立体内窥镜图像即可学习复杂的长期操作任务，克服了传统方法对多摄像头或大量数据的依赖。实验表明，该架构显著提升了模型在分布内和分布外场景下的性能，并具备良好的泛化能力，为手术机器人的实际应用提供了可行方案。

Comments Accepted at Robotics:Science and Systems 2026

2601.21698 2026-05-12 cs.LG cs.AI

Curriculum Learning for LLM Pretraining: An Analysis of Learning Dynamics

Mohamed Elgaar, Hadi Amiri

AI总结该研究探讨了课程学习在大语言模型预训练中的影响，分析了不同数据排序策略对学习动态的影响。研究通过三种语言学驱动的课程（词获取年龄、词频、动词变化）与随机排序进行对比，发现课程学习主要影响模型在不同训练阶段的时间分配，而随机排序在小模型中会导致更大的梯度噪声和输出头饱和。实验表明，在较小模型中，课程学习有助于提升训练稳定性，但在更大规模下这种差异减弱。

2601.21619 2026-05-12 cs.LG cs.AI cs.CL

On the Overscaling Curse of Parallel Thinking: System Efficacy Contradicts Sample Efficiency

Yiming Wang, Zhuosheng Zhang, Rui Wang

AI总结本文研究了并行推理中“过放缩诅咒”问题，即系统整体性能提升与样本级效率之间的矛盾。作者提出了一种名为LanBo的方法，通过分析模型潜在表示来预测每个样本的最佳预算，从而显著提升预算利用率并保持整体准确率。此外，作者将LanBo整合到解码流程中，提出了预解码预算调整（PreAda）范式，进一步提升了计算效率和硬件资源利用。

Comments 44 pages, 66 figures, 24 tables

2601.21266 2026-05-12 cs.LG

Model-Free Neural Filtering: A Comparison with Classical Filters in Nonlinear Systems

Zhuochen Liu, Hans Walker, Rahul Jain

AI总结本文研究了模型无关的神经网络估计器在非线性系统中的状态估计性能，并与经典滤波方法进行了系统比较。研究采用包括Transformer、循环神经网络和状态空间模型在内的多种神经网络架构，与粒子滤波和非线性卡尔曼滤波等经典方法进行对比。结果表明，结构化的状态空间模型（如Mamba和Mamba-2）在多个非线性场景中表现出色，尤其在无需系统模型的情况下优于部分经典滤波方法，同时在推理吞吐量上也具有优势。研究认为，这类模型的结构特性使其在参数预算有限、数据有限和长期评估条件下更接近经典滤波器。

Comments 9 pages, 15 figures

2601.21164 2026-05-12 cs.AI

Concise Geometric Description as a Bridge: Unleashing the Potential of LLM for Plane Geometry Problem Solving

Jingyun Wang, Dian Li, Xiaohan Wang, Gang Liu, Jiahong Yan, Guoliang Kang

AI总结本文研究了如何利用大语言模型（LLM）解决平面几何问题，核心挑战在于LLM难以直接处理几何图形。为此，作者提出通过训练一个多元模态语言模型（MLLM）解释器，将几何图示转化为简洁的条件声明语言（CDL）描述，再利用现成的LLM进行推理。该方法通过设计CDL匹配奖励机制，有效提升了模型的几何理解与推理能力，并在多个数据集上取得了优于现有主流模型的性能。

Comments CVPR 2026 Findings

2601.21061 2026-05-12 cs.LG stat.ML

Signal from Structure: Exploiting Submodular Upper Bounds in Generative Flow Networks

Alexandre Larouche, Audrey Durand

AI总结本文研究了生成流网络（GFlowNets）在奖励函数具有子模结构时的优化问题，提出了一种基于子模上界的新训练方法SUBo-GFN。该方法利用子模性推导出未观测组合对象的奖励上界，并基于不确定性乐观原则进行训练，显著提升了生成样本的质量和数量。实验表明，SUBo-GFN在合成和现实子模任务中表现出优越的分布匹配能力和候选生成效果。

2601.20829 2026-05-12 cs.LG cs.AI cs.CL

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

Minwu Kim, Safal Shrestha, Anubhav Shrestha, Keith Ross

AI总结随着可验证奖励强化学习（RLVR）显著提升了大语言模型的推理能力，新的瓶颈问题出现：越来越多的训练问题变得饱和，即模型在几乎每次推理中都能正确回答问题。在这种情况下，奖励提供的学习信号非常有限。本文提出了一种简单有效的方法——失败前缀条件化，通过引导模型探索易出错的推理状态，从而挖掘饱和问题中剩余的学习信号。实验表明，该方法在标准RLVR陷入停滞时能持续提升性能，并在性能趋于平稳后，通过迭代更新失败前缀进一步提升效果。

Comments 20 pages

2601.18832 2026-05-12 cs.LG cs.AI

The Geometric Reasoner: Manifold-Informed Latent Foresight Search for Long-Context Reasoning

Ren Zhuang, Ben Wang, Shuifa Sun

AI总结该研究提出了一种名为《The Geometric Reasoner》的训练无关框架，旨在解决长上下文推理中计算成本与推理质量之间的根本矛盾。该方法通过在严格内存限制下进行流形感知的潜在前瞻搜索，结合轻量级的前向估计与软几何正则化，提升轨迹的平滑性与多样性。实验表明，该方法在数学和代码基准测试中显著提升了推理覆盖率，且仅带来少量的额外计算开销。

Comments 29 pages, 13 figures

2601.18061 2026-05-12 cs.AI cs.HC

Expert Evaluation and the Limits of Human Feedback in Mental Health AI Safety Testing

Kiana Jafari, Paul Ulrich Nikolaus Rust, Duncan Eddy, Robbie Fraser, Nina Vasan, Darja Djordjevic, Akanksha Dadlani, Max Lamparth, Eugenia Kim, Mykel Kochenderfer

AI总结该研究探讨了在心理健康AI安全测试中，专家评估与人类反馈的局限性。研究发现，三位精神科专家对大型语言模型生成的回应进行评估时，评分一致性较低，尤其在涉及自杀和自残等高风险内容时分歧更为显著。研究指出，专家间的不一致源于不同的临床理念，而非单纯的测量误差，表明当前基于专家共识的标签聚合方法可能忽略了专业判断的多样性与复杂性。这一发现对AI安全评估、奖励建模及评价基准的设计具有重要启示。

Comments 17 pages, 7 pages of appendix, 21 tables

2601.16836 2026-05-12 cs.CV cs.CL

ColorConceptBench: A Benchmark for Probabilistic Color-Concept Understanding in Text-to-Image Models

Chenxi Ruan, Yihan Hou, Yu Xiao, Guosheng Hu, Wei Zeng

AI总结本文提出 ColorConceptBench，一个用于评估文本到图像模型在概率色彩概念理解能力的基准测试。该基准通过6,584个人工标注的隐式色彩概念，系统性地评估模型对情绪、视觉状态等抽象语义的理解能力。研究发现，现有主流模型在不同语义类别上的表现差异显著，且对抽象语义的敏感度较低，表明当前模型在学习和表示隐式语义方面仍存在明显不足。

Comments 9 pages, 6 figures

2601.11042 2026-05-12 cs.CL cs.AI

Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

Chi Zhang, Mengqi Zhang, Xiaotian Ye, Runxi Cheng, Zisheng Zhou, Ying Zhou, Pengjie Ren, Zhumin Chen

AI总结在大型语言模型中，顺序知识编辑常常导致模型整体能力的严重退化，尤其是参数修改方法更为明显。本文通过谱分析揭示了模型通用能力与预训练权重矩阵的主奇异方向密切相关，这些方向对扰动高度敏感，反复编辑会逐步破坏它们，进而影响编辑效果和整体性能。基于这一发现，作者提出了REVIVE框架，通过在原始权重的谱基上进行参数更新，并过滤干扰保护区域的成分，有效稳定了顺序编辑过程。实验表明，REVIVE在多种模型和基准测试中均能显著提升编辑效果并保持模型的通用能力，即使在高达20000次编辑的极端情况下也表现优异。

Comments 22 pages, 18 figures, Accepted to ACL 2026 (Main Conference)

2601.03511 2026-05-12 cs.CL cs.AI cs.LG

IntroLM: Introspective Language Models via Prefilling-Time Self-Evaluation

Hossein Hosseini Kasnavieh, Gholamreza Haffari, Chris Leckie, Adel N. Toosi

AI总结本文提出了一种名为IntroLM的方法，使因果语言模型能够在预填充阶段通过引入内省标记对自己的输出质量进行预测，从而无需依赖外部分类器。该方法利用条件LoRA技术，仅在内省标记激活时进行质量预测，既保持了模型原有行为，又避免了额外计算开销。实验表明，IntroLM在问答任务中表现出色，显著优于基于DeBERTa的分类器，并在多模型路由系统中有效降低了延迟和大模型使用率。

Comments Accepted for publication in Findings of ACL 2026

2512.24552 2026-05-12 cs.CV math.OC

OCP-GN: A Scalable Second-order Optimizer for Stochastic Optimization

Jindi Zhong, Congyaohui Yin, Zhaorong Zhang, Huanshui Zhang

AI总结本文提出了一种基于最优控制原理（OCP）的新型二阶优化算法OCP-GN，适用于神经网络训练中的大规模优化问题。该算法具有O(d)的计算复杂度和较强的鲁棒性，实验结果表明其在多个基准测试中表现出显著的优越性。

2512.23025 2026-05-12 cs.CL cs.AI

LENS: LLM-Enabled Narrative Synthesis for Mental Health by Aligning Multimodal Sensing with Language Models

Wenxuan Xu, Arvind Pillai, Subigya Nepal, Amanda C Collins, Daniel M Mackin, Michael V Heinz, Tess Z Griffin, Nicholas C Jacobson, Andrew Campbell

AI总结 LENS 是一个基于大语言模型（LLM）的叙事生成框架，旨在将多模态健康传感数据转化为具有临床意义的心理健康叙述。该方法通过构建大规模的传感器-文本问答对数据集，并训练一个能够将原始传感器信号映射到语言模型表示空间的编码器，解决了传统LLM无法直接处理长时间传感器数据的问题。实验表明，LENS 在自然语言处理指标和症状严重程度准确性方面均优于现有方法，并获得了心理健康专业人士的认可，展示了其在临床应用中的潜力。

Comments Camera-ready version. Additional experiments

2512.20798 2026-05-12 cs.AI

A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents

Miles Q. Li, Benjamin C. M. Fung, Martin Weiss, Pulei Xiong, Khalil Al-Hussaeni, Claude Fachkha

AI总结随着自主AI代理在高风险环境中的应用日益广泛，确保其安全性和与人类价值观的一致性成为实际部署中的重要问题。现有基准主要评估AI对有害指令的拒绝或复杂任务的完成能力，但缺乏针对目标驱动型约束违反的评估体系。为此，研究者提出了一种包含40个场景的基准，用于检测AI在追求绩效指标时可能忽视伦理、法律或安全约束的行为，并通过对比不同代际模型发现，安全性能并未随模型迭代而稳定提升。

2512.19115 2026-05-12 cs.CV

Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval?

Hengyi Feng, Zeang Sheng, Meiyi Qiang, Yang Li, Wentao Zhang

AI总结尽管多模态大语言模型（MLLMs）在生成任务中表现出色，但它们在零样本多模态检索任务中却表现出令人意外的不足。本研究通过稀疏自编码器（SAEs）分析发现，MLLMs的表示空间主要由文本语义主导，而对多模态检索至关重要的视觉语义占比很小，且模型在跨模态对齐上的过度关注进一步削弱了其区分能力。基于这些发现，作者提出了一种名为ReAlign的测试时适配方法，通过白化变换调整表示空间的几何结构，从而在无需微调的情况下显著提升了多种MLLMs的零样本多模态检索性能。

2512.18610 2026-05-12 cs.LG

The Procrustean Bed of Time Series: The Optimization Bias in Point-wise Loss Functions

Rongyao Cai, Yuxi Wan, Kexin Zhang, Ming Jin, Zhiqiang Ge, Daoyi Dong, Hang Yu, Yong Liu, Qingsong Wen

AI总结该论文研究了时间序列预测中点-wise 损失函数（如 MSE 和 MAE）所引入的系统性优化偏差问题。作者指出，这类损失函数忽略了时间依赖性，导致模型无法准确捕捉时间序列的联合分布，从而产生不可忽视的偏差。通过定义期望优化偏差（EOB）并推导其数学表达式，论文揭示了该偏差由序列长度和结构信噪比（SSNR）决定，并提出了一种基于序列长度缩减和结构正交化的去偏方法，显著提升了时间序列预测和插补的性能。

Comments 54 pages

2512.13751 2026-05-12 cs.LG cs.AI

MIDUS: Memory-Infused Depth Up-Scaling

Taero Kim, Hoyoon Byun, Youngjun Choi, Sungrae Park, Kyungwoo Song

AI总结本文提出了一种名为MIDUS的深度扩展方法，旨在提升预训练语言模型的容量而不显著增加计算成本。该方法通过引入记忆层替代传统的FFN分支，将新增的模型深度转化为基于检索的轻量级残差能力。核心创新是提出了一种头级记忆层（HML），结合多头产品键记忆与头级隐值扩展（HIVE），为每个注意力头分配独立的键空间，并从共享的潜在库中高效生成头特定的值，从而在性能和效率上均取得改进。

2512.08984 2026-05-12 cs.CV cs.AI

RAG-HAR: Retrieval Augmented Generation-based Human Activity Recognition

Nirhoshan Sivaroopan, Hansi Karunarathna, Chamara Madarasingha, Anura Jayasumana, Kanchana Thilakarathna

AI总结 RAG-HAR 是一种基于检索增强生成（RAG）的人类活动识别框架，无需训练即可利用大语言模型进行活动识别。该方法通过计算轻量统计特征，从向量数据库中检索语义相似样本，并结合上下文信息进行活动识别。通过引入提示优化和基于大语言模型的活动描述符，RAG-HAR 在六个不同的活动识别基准上取得了最先进的性能，且无需模型微调，具有较高的实用性和鲁棒性。

Comments Accepted to IEEE PerCom 2026 (Pervasive computing and communications)

2512.06673 2026-05-12 cs.CV

Detector-Empowered Video Large Language Model for Efficient Spatio-Temporal Grounding

Shida Gao, Feng Xue, Xiangfeng Wang, Anlong Ming, Zhaowen Lin, Haiyang Zhang, Teng Long, Nicu Sebe, Yihua Shao, Haozhe Wang, Wei Wang

AI总结该研究提出了一种基于检测器的视频大语言模型DEViL，旨在提升时空视频定位（STVG）任务的效率。其核心思想是将密集的空间定位任务从语言模型中分离，交由高效且可并行的检测器完成，从而避免了传统方法中复杂的解码和候选生成过程。通过引入参考语义标记和时间一致性正则化，DEViL在保持语言模型推理能力的同时，实现了更高的推理速度和更优的定位性能。

2512.04475 2026-05-12 cs.LG cs.AI cs.NE stat.ML

GraphBench: Next-generation graph learning benchmarking

Timo Stoll, Chendi Qian, Ben Finkelshtein, Ali Parviz, Darius Weber, Fabrizio Frasca, Hadar Shavit, Antoine Siraudin, Arman Mielke, Marie Anastacio, Erik Müller, Maya Bechler-Speicher, Michael Bronstein, Mikhail Galkin, Holger Hoos, Mathias Niepert, Bryan Perozzi, Jan Tönshoff, Christopher Morris

AI总结随着图机器学习在分子性质预测和芯片设计等领域取得进展，当前的基准测试方法仍存在碎片化问题，依赖于任务特定的数据集和不一致的评估协议，限制了研究的可复现性和整体进展。为应对这一挑战，本文提出 GraphBench，一个涵盖多种现实领域和任务场景的综合性基准测试套件，提供标准化的评估协议和统一的超参数调优框架，旨在推动图学习模型的全面评估与未来发展。

2512.02012 2026-05-12 cs.CV cs.LG

Improved Mean Flows: On the Challenges of Fastforward Generative Models

Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He

AI总结本文针对一种名为MeanFlow的一站式生成模型框架中存在的训练目标和引导机制方面的挑战，提出了改进方法iMF。研究通过将训练目标重新表述为对瞬时速度的回归问题，并引入显式条件变量进行引导，提升了模型的训练稳定性和灵活性。实验表明，iMF在ImageNet 256×256数据集上以单次函数评估实现了1.72的FID分数，显著优于现有同类方法，且无需知识蒸馏即可接近多步方法的性能。

Comments Technical report. Code at https://github.com/Lyy-iiis/imeanflow

2512.02010 2026-05-12 cs.CL cs.LG

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Jack Cook, Junxian Guo, Guangxuan Xiao, Yujun Lin, Keith Wyss, Mahdi Nazemi, Asit Mishra, Carlo del Mundo, Tijmen Blankevoort, Song Han

AI总结随着大语言模型规模的增长，低精度数值格式如NVFP4因其在提升速度和减少内存占用方面的潜力而受到关注。然而，将模型量化到NVFP4时，精度的降低通常会导致性能下降。本文提出了一种改进的块缩放NVFP4量化方法——Four Over Six（4/6），通过自适应地将部分块缩放到更小的FP4值，使可表示值的分布更加均匀，从而有效减少量化误差，尤其在接近最大值的区域。实验表明，4/6在现代硬件加速器上能够高效实现，并在预训练和推理过程中带来性能提升，且计算开销极小。

Comments 10 pages, 4 figures