arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08864 2026-05-12 cs.LG math.ST stat.TH

Higher-Order Equilibrium Tracking for EM-Compressible Online Estimation

ZhiMing Li, Yue Song

AI总结本文研究了潜在变量模型中的在线估计问题，将其重新表述为追踪一个移动的实证均衡。作者提出了一种新的分析框架，将在线估计分解为当前运行统计量对应的冻结批量均衡和追踪滞后误差，并证明了在一定条件下，在线估计器可以继承批量估计的中心极限定理和精确的一阶风险常数。研究还引入了EM压缩性及相关概念，为在线追踪提供了理论支持，并在潜在线性高斯协方差估计中验证了该方法的有效性。

Comments 41 pages, 6 figures

2605.08862 2026-05-12 cs.LG cs.AI

BubbleSpec: Turning Long-Tail Bubbles into Speculative Rollout Drafts for Synchronous Reinforcement Learning

Yuhang Xu, Kaibin Tian, Yang Tian, Zhice Yang, Yifeng Yu, Yan Li, Shengzhong Liu, Fan Wu, Guihai Chen

AI总结强化学习（RL）在提升大语言模型（LLM）性能中发挥着重要作用，但其 rollout 阶段在数据并行场景下因长尾延迟问题导致效率低下。本文提出 BubbleSpec，一种在保持数学精确性的同时加速 RL rollout 的新框架，它通过利用快速设备的空闲时间预生成后续步骤的 rollout 结果，作为推测解码的草稿，从而有效提升训练吞吐量。实验表明，BubbleSpec 能减少 50% 的解码步骤，并将 rollout 吞吐量提升至原来的 1.8 倍，且与多种 RL 框架兼容。

2605.08857 2026-05-12 cs.LG

RareCP: Regime-Aware Retrieval for Efficient Conformal Prediction

Manuel Heurich, Maximilian Granz, Tim Landgraf

AI总结本文提出了一种名为RareCP的新型方法，用于提高时间序列预测中置信区间的效率。该方法通过引入具有不同误差模式的专家网络和自适应核函数，有效应对时间依赖性、漂移和异构误差带来的非平稳性问题。RareCP利用检索机制从历史数据中选取最相关的校准样本来生成非对称预测区间，在保证经验覆盖性的前提下提升了区间效率，并在多个基准测试中表现出优越性能。

2605.08854 2026-05-12 cs.CV

Restoration-Aligned Generative Flow Models for Blind Motion Deblurring

Insoo Kim, Jinwoo Shin

AI总结本文提出了一种名为DeblurFlow的生成流模型框架，用于解决盲运动去模糊问题。该方法通过将生成流的轨迹终点从噪声替换为模糊观测，使模型的训练目标与去模糊任务对齐，从而避免了传统生成流模型在恢复任务中出现的保真度下降问题。研究还引入了r-space这一专门用于残差解码的潜在空间，大幅降低了计算成本，并在多个数据集上展示了DeblurFlow在恢复保真度和感知真实感方面的优越性能。

2605.08853 2026-05-12 cs.CL

Architecture, Not Scale: Circuit Localization in Large Language Models

Sohan Venkatesh

AI总结本研究挑战了“模型规模越大，机制可解释性越难”的常见假设，指出模型的架构设计比参数数量对电路行为的影响更为关键。通过对比Pythia和Qwen2.5模型中的三种电路类型，研究发现分组查询注意力机制在相同规模下能产生更集中、更稳定的电路结构。研究还发现，在特定架构下，事实回忆电路在达到临界规模后会经历离散的相变，而非逐步退化，表明合理的架构选择有助于提升大模型的可解释性研究效率。

2605.08847 2026-05-12 cs.CL

EmoS: A High-Fidelity Multimodal Benchmark for Fine-grained Streaming Emotional Understanding

Pengze Guo, Jingxi Liang, Zhiwen Xie, Qifeng Wang, Derek F. Wong

AI总结在高压老龄化社会背景下，构建能够提供共情支持的大规模情感模型变得尤为重要。为此，本文提出 EmoS，一个高保真双语多模态基准数据集，通过结合严格筛选的静态片段与动态流媒体独白子集，解决了现有数据集在生态效度和噪声方面的不足。EmoS 采用双重人工标注流程，确保情感演变的连续性与标注可靠性，实验表明基于 EmoS 微调多模态大语言模型在情感理解任务上显著优于零样本基线，为未来情感识别和共情模型的训练与评估提供了坚实基础。

Comments acl - 2026 main accepted

2605.08843 2026-05-12 cs.AI cs.LG

M$^3$: Reframing Training Measures for Discretized Physical Simulations

Yuan Mei, Xingyu Song, Xiaowen Song, Naoya Takeishi

AI总结在物理仿真中，神经代理模型通常基于离散化样本进行训练，但由此产生的经验测度会导致监督不均，影响优化过程并引发空间上的物理一致性问题。为此，研究提出M$^3$（多尺度莫顿测度）框架，通过根据物理变化划分空间并在多尺度上分配监督，平衡训练测度，从而缓解测度引起的偏差。实验表明，M$^3$在多个工业级数据集上显著提升了连续物理域中的预测性能，尤其在大规模体积场景中，其误差降低了4.7倍，并在数据子采样情况下仍保持优势，展示了其在物理一致性建模中的可扩展性和数据效率。

2605.08842 2026-05-12 cs.CL

XPERT: Expert Knowledge Transfer for Effective Training of Language Models

Chang Liu, Boyu Shi, Xu Yang, Xin Geng

AI总结该研究提出了一种名为XPERT的框架，旨在从混合专家（MoE）语言模型中提取并复用专家知识，以提升不同规模语言模型的训练效果。通过分析专家激活模式，XPERT识别出跨领域、通用性强的专家模块，并利用张量分解等技术优化其表示，将其知识迁移至下游模型中。实验表明，复用专家知识的模型在理解与对话生成任务中表现出更强的性能和更快的收敛速度，凸显了MoE模型作为结构化知识源的价值。

2605.08841 2026-05-12 cs.CV

Illusion-Aware Visual Preprocessing and Anti-Illusion Prompting for Classic Illusion Understanding in Vision-Language Models

Junli Zha, Jiahui Wang, Xinkai Lu, Jinbo Wang

AI总结该研究针对视觉语言模型（VLMs）在经典视错觉理解任务中过度依赖记忆而非真实视觉感知的问题，提出了一种无需微调的训练自由框架。方法通过错觉感知的图像预处理、反错觉提示工程以及多投票集成三种互补策略，有效提升了模型对视觉错觉的识别能力。实验表明，该方法在官方测试集上达到了90.48%的准确率，在人工验证子集上更是达到了98.41%，并取得了挑战赛第二名的优异成绩。

Comments Accepted at CVPR 2026 Workshop on 5th DataCV Challenge

2605.08840 2026-05-12 cs.CL

ReST-KV: Robust KV Cache Eviction with Layer-wise Output Reconstruction and Spatial-Temporal Smoothing

Yongqi An, Chang Lu, Kuan Zhu, Tao Yu, Chaoyang Zhao, Hong Wu, Ming Tang, Jinqiao Wang

AI总结随着大型语言模型在长序列生成中对Key-Value（KV）缓存的内存需求不断增长，如何高效地进行KV缓存淘汰成为关键问题。本文提出ReST-KV方法，通过逐层输出重建和时空平滑相结合，更全面地考虑了KV缓存淘汰过程中的注意力再分配效应和时空动态特性。该方法将KV缓存淘汰建模为一个优化问题，有效减少了输出差异，并在多个长上下文基准测试中显著提升了性能，同时大幅降低了推理延迟。

Comments Accepted at ICLR 2026. Project Page: https://github.com/an-yongqi/rest-kv

2605.08839 2026-05-12 cs.CV

Cross-Sample Relational Fusion: Unifying Domain Generalization and Class-Incremental Learning

Zhen-Hao Xie, Yan Wang, Hao Sun, Han-Jia Ye, De-Chuan Zhan, Da-Wei Zhou

AI总结本文提出了一种统一处理领域偏移和灾难性遗忘的框架CORF，用于解决增量学习中的挑战。该方法通过空间贡献图选择性地优化训练样本，并结合预测置信度自适应调整样本权重，以增强模型的泛化能力。同时，CORF引入级联知识蒸馏机制，捕捉跨样本的关系依赖，实现多粒度的知识迁移，有效缓解了遗忘问题，并可无缝集成到现有增量学习算法中，取得良好的实验效果。

Comments Accepted by IEEE Transactions on Multimedia (TMM 2026). Code is available at https://github.com/LAMDA-CL/TMM26-CORF

2605.08838 2026-05-12 cs.CL cs.AI

Generating Leakage-Free Benchmarks for Robust RAG Evaluation

Jiayi Liu, Jiaxing Zhang, Bowen Jin, Jennifer Neville

AI总结该论文研究了检索增强生成（RAG）系统评估中因知识泄露和基准老化导致的评估不可靠问题，提出了一种名为SeedRG的半合成基准生成方法。该方法通过从种子数据集中提取推理图，并利用类型约束的实体替换生成结构相似但新颖的问题实例，从而有效减少知识泄露。同时，SeedRG引入了推理图一致性检查和知识泄露过滤两个验证步骤，确保生成的基准既保持任务难度，又避免被模型参数记忆所覆盖。

2605.08837 2026-05-12 cs.CL cs.AI

The Grounding Gap: How LLMs Anchor the Meaning of Abstract Concepts Differently from Humans

Odysseas S. Chlapanis, Orfeas Menis Mastromichalakis, Christos H. Papadimitriou

AI总结该研究探讨了大型语言模型（LLMs）与人类在抽象概念理解上的差异，发现模型在生成抽象概念的属性时，过度依赖词汇关联，而较少涉及情感和内在状态等人类更依赖的维度，从而形成显著的“ grounding gap”。研究通过复现认知科学实验并分析模型内部特征，表明尽管模型在被明确询问时能反映某些 grounding 维度，但在自由生成词语时仍缺乏人类般的情境化理解。

2605.08835 2026-05-12 cs.AI

SynerDiff: Synergetic Continuous Batching for Fast and Parallel Diffusion Model Inference

Ziqi Zhou, Peng Yang, Yuxin Liang, Mingliu Liu, Jia Lu

AI总结随着人工智能生成内容服务的扩展，扩散模型推理需要同时实现高吞吐量和低端到端延迟。为了解决现有连续批处理方法在UNet-VAE并发时资源争用严重导致延迟突增的问题，本文提出SynerDiff系统，通过内外层协同机制优化资源分配与任务调度。该方法在内部并发层面通过VAE分块和自适应跳过CFG技术缓解资源瓶颈，在外部并发层面引入感知调度粒度的阈值感知调度器，动态调整阈值以平衡UNet吞吐与VAE延迟，实验表明其在保证图像质量的同时，吞吐量提升1.6倍，平均端到端延迟和P99尾延迟分别降低最高达78.7%。

Comments accepted by IEEE ICME 2026

2605.08833 2026-05-12 cs.AI

FRACTAL: SSM with Fractional Recurrent Architecture for Computational Temporal Analysis of Long Sequences

Mengqi Li, Wensheng Lin, Jinshuai Yang, Lixin Li

AI总结本文提出了一种名为FRACTAL的新序列建模架构，旨在解决现有状态空间模型（SSM）在处理长序列时面临的长期记忆与短期动态检测之间的权衡问题。该方法引入分数阶递归结构，结合分数测度理论设计具有可调奇异指数的投影算子，从而在保持尺度不变性的同时增强对近期信号变化的敏感性。实验表明，FRACTAL在Long Range Arena基准测试中表现优异，显著优于现有模型如S5。

Comments 19 pages (10 pages main text, 9 pages appendix), 3 figures. Accepted by ICML 2026

2605.08831 2026-05-12 cs.RO

AssemPlanner: A Multi-Agent Based Task Planning Framework for Flexible Assembly System

Chenhao Zhang, Chaoran Zhang, Zhaobo Xu, Yongbo Yang, Pingfa Feng, Long Zeng

AI总结本文提出了一种基于多智能体的柔性装配系统任务规划框架AssemPlanner，旨在解决现有方法在新产品产线配置中依赖专家手动设定、耗时费力的问题。该框架能够将自然语言描述的任务转化为可执行的生产操作序列，并通过包括调度代理、知识代理、产线平衡代理和场景图在内的多个智能体协同工作，实现对复杂工业约束的自主处理。研究的核心贡献在于引入基于ReAct的调度代理，通过多智能体反馈动态调整规划策略，提升了任务规划的灵活性与自动化水平。

2605.08820 2026-05-12 cs.CV cs.AI cs.CR

FraudBench: A Multimodal Benchmark for Detecting AI-Generated Fraudulent Refund Evidence

Xinyu Yan, Boyang Chen, Jiaming Zhang, Tiantong Wu, Hong Xi Tae, Yichen He, Tiantong Wang, Yachun Mi, Yurong Hao, Yilei Zhao, Lei Xiao, Longtao Huang, Pengjun Xie, Wei Liu, Wei Yang Bryan Lim

AI总结随着人工智能生成图像日益逼真，AI生成的退款欺诈证据检测成为新的挑战。为此，研究者提出了FraudBench，一个基于多模态数据的基准，专门用于检测AI生成的虚假退款证据。该基准集从电商、外卖和旅行服务等真实场景中构建，包含图像、评论及产品元数据，并通过模型辅助过滤和人工标注区分真实损坏与未损坏证据，同时利用先进图像生成模型合成虚假损坏图像。实验表明，现有模型在检测AI生成的虚假损坏证据方面仍存在显著不足，揭示了通用图像检测与真实场景下欺诈证据验证之间的明显差距。

2605.08819 2026-05-12 cs.CV cs.LG

From pre-training to downstream performance: Does domain-specific pre-training make sense?

Felix Krones

AI总结该研究探讨了在医学影像领域中，领域特定的预训练是否能有效提升下游任务性能。通过系统比较卷积神经网络和Transformer模型，并分析多种预训练方法（包括监督和自监督学习）及数据模态的影响，研究发现只有当预训练数据与目标模态高度匹配时，才能显著提升模型性能。研究强调了预训练策略对提升医学影像深度学习模型可靠性的重要性，并为开发更准确、可靠的诊断工具提供了参考。

2605.08817 2026-05-12 cs.AI

How You Begin is How You Reason: Driving Exploration in RLVR via Prefix-Tuned Priors

Yifan Xu, Junren Chen, Yifan Chen

AI总结在可验证奖励强化学习（RLVR）中，由于奖励稀疏性和长推理周期，有效探索面临挑战，常表现为熵崩溃现象，即模型虽能提升单次推理准确率，却难以拓展成功推理路径的覆盖范围。为解决这一问题，本文提出了一种信息最大化增强探索（IMAX）框架，通过训练一组软前缀来重塑基础模型对推理路径的先验分布，从而引导多样化的推理行为。该方法无需依赖强化学习进行探索激励，而是通过信息最大化奖励与可验证奖励结合，有效提升了模型在多个尺度下的推理性能。

2605.08816 2026-05-12 cs.AI cs.CY

Mirror, Mirror on the Wall: Can VLM Agents Tell Who They Are at All?

Filippo Ziliotto, Ciro Beneduce, Bruno Lepri, Luciano Serafini, Massimiliano Luca, Tommaso Campari

AI总结本文研究具身视觉语言模型（VLM）是否具备类似动物镜像自认的认知能力，即能否通过镜像识别自身。作者构建了一个受控的3D实验环境，要求模型从镜像中推断自身的隐藏属性并选择对应目标，同时避免误将他人特征归于自身。实验表明，只有较强VLM才能基于镜像进行有效的自我识别，而较弱模型则常无法正确提取自身相关信息或产生误判，说明镜像自识别能力依赖于感知与行动的紧密结合，而非单纯的语言提示或先验知识。

2605.08815 2026-05-12 cs.LG q-bio.BM q-bio.GN q-bio.QM

MicroFuse: Protein-to-Genome Expert Fusion for Microbial Operon Reasoning

Seungik Cho

AI总结 MicroFuse 是一种用于微生物操纵子推理的蛋白-基因组专家融合框架，旨在整合蛋白质尺度的分子身份信息与基因组上下文组织信息。该方法通过一个包含四个专家（蛋白、基因组上下文、一致性和冲突）的混合专家模块，结合结构感知的蛋白质表示和基因组上下文表示，以学习软路由策略进行信息融合。实验表明，MicroFuse 在新构建的 OG-Operon100K 数据集上显著优于单独使用蛋白质或基因组模型的基线方法，尤其在生物学意义模糊的案例中表现出色。

2605.08814 2026-05-12 cs.CV

Zero-Shot Chinese Character Recognition via Global-Local Dual-Branch Alignment and Hierarchical Inference

Wei Cao, Hao Xu, Xiaolei Diao

AI总结本文研究了开放场景下未见过的汉字识别这一具有挑战性的问题，提出了一种基于全局-局部双分支对齐和层次推理的零样本汉字识别方法。该方法通过统一的跨模态对齐框架联合学习汉字图像和汉字结构描述的全局与局部表示，结合结构过滤掩码抑制局部相似性中的噪声操作符，并采用从粗到细的层次推理策略，有效提升了识别性能与推理效率。实验表明，该方法在多种零样本划分下表现优异，尤其在低资源条件下具有显著优势。

Comments 9 pages

2605.08813 2026-05-12 cs.LG

AgentSlimming: Towards Efficient and Cost-Aware Multi-Agent Systems

Yulang Chen, Haoxuan Peng, Jinyan Liu, Zichen Wen, Dongrui Liu, Linfeng Zhang

AI总结本文提出了一种名为 AgentSlimming 的高效压缩框架，旨在解决基于大语言模型的多智能体系统中通信结构冗余、资源消耗大的问题。该方法通过混合机制评估每个智能体的重要性，并结合剪枝与量化思想，去除或替换冗余智能体，从而在保证性能的前提下显著降低计算成本。实验表明，AgentSlimming 能将平均 token 消耗减少高达 78.9%，并在某些情况下提升任务准确率，实现了成本与质量之间的帕累托最优平衡。

2605.08810 2026-05-12 cs.LG cs.AI

Compressed Video Aggregator: Content-driven Module for Efficient Micro-Video Recommendation

Yang Xiao, Huiyuan Chen, Kaiyuan Deng, Chao Jiang, Zinan Ling, Ruimeng Ye, Xiaolong Ma, Bo Hui

AI总结本文提出了一种轻量级的微视频推荐模块——压缩视频聚合器（CVA），通过解耦视频信息与偏好学习，实现更高效的推荐。CVA 利用冻结的视频特征嵌入，并采用无需交叉注意力投影的潜在推理机制，生成紧凑的视频嵌入表示。实验表明，该方法在训练时间和GPU内存消耗上大幅减少，同时通过基于CLIP的标题重选关键帧，进一步提升了推荐性能，并对错误标题等场景的影响进行了分析。

Comments 18 pages

2605.08809 2026-05-12 cs.CL cs.AI

SimReg: Achieving Higher Performance in the Pretraining via Embedding Similarity Regularization

Yan Sun, Guoxia Wang, Jinle Zeng, JiaBin Yang, Shuai Li, Li Shen, Dacheng Tao, DianHai Yu, Haifeng Wang

AI总结在预训练大语言模型中，由于词嵌入具有上下文依赖性，导致同类词嵌入方差大、不同类词嵌入相似度高，影响了表示学习的效率。本文提出SimReg，一种基于嵌入相似性的正则化损失函数，通过在同一序列中强制相同标签的词嵌入更加相似，并利用对比损失使不同标签的词嵌入相互分离，从而提升分类性能。实验表明，SimReg在多种架构中显著加速了训练收敛，并提升了零样本下游任务的性能。

2605.08808 2026-05-12 cs.CV cs.AI cs.LG

Curvature-Aware Captioning:Leveraging Geodesic Attention for 3D Scene Understanding

Ziyao He, Yingjie Liu, ZhangYangRui, Mingsong Chen, Xuan Tang, Xian Wei

AI总结本文提出了一种名为“曲率感知描述生成”的新框架，用于解决三维场景理解中稀疏点云数据的精确描述问题。该方法引入非欧几里得的测地注意力机制，通过在斜空间中进行自注意力计算和在洛伦兹空间中建立双向测地交叉注意力，实现了局部几何细节与全局语义层次的协同建模。理论分析表明，该方法有效缓解了欧几里得空间与双曲空间之间的冲突，实验结果在ScanRefer和Nr3D数据集上展示了其在定位精度和描述丰富性方面的优越性能。

Comments CVPR2026 Highlight!

2605.08805 2026-05-12 cs.CV

LightAVSeg: Lightweight Audio-Visual Segmentation

Qing Zhong, Guodong Ding, Lingqiao Liu, Zaiwen Feng, Lin Yuanbo Wu, Angela Yao

AI总结 LightAVSeg 是一种轻量化的音视频分割框架，旨在解决现有模型计算复杂度高、难以高效部署的问题。该方法通过解耦设计替代传统的密集跨模态注意力机制，使交互成本随空间分辨率线性增长，并引入辅助对齐损失以提升语义一致性。实验表明，LightAVSeg 在参数量仅为 AVSegFormer 1/7 的情况下，在 MS3 数据集上取得了 50.4 mIoU 的优异性能，实现了高效的移动端推理。

Comments 15 pages, 8 figures, 6 tables, Accepted to ICML 2026

2605.08801 2026-05-12 cs.LG

Data-driven transport modelling without overfit

Peter Vanya, Katarína Šimková, Rastislav Farkaš

AI总结本文提出了一种无需过度拟合的数据驱动交通建模方法，用于预测公共政策干预后的交通流量，如新建道路或临时道路封闭。该方法基于易于获取的交通流量数据，采用可解释的模型权重和可控的复杂度提升路径，避免了传统模型对社会经济数据的高依赖性和不可解释性问题。研究通过多个示例验证了方法的有效性，并探讨了其在多模式交通系统中的扩展应用。

Comments 6 pages, 6 figures

2605.08800 2026-05-12 cs.CV cs.AI

PPU-Bench:Real World Benchmark for Personalized Partial Unlearning in Vision Language Models

Jiahui Guang, Zexun Zhan, Zhenlin Xu, Cuiyun Gao, Haiyan Wang, Jing Li, Zhaoquan Gu, Yanchun Zhang

AI总结该论文提出PPU-Bench，一个用于视觉语言模型中个性化部分遗忘的现实基准，旨在解决现有基准依赖合成数据或全量删除的问题。该基准包含24,000个样本，涵盖三种渐进式场景，评估模型在去除目标知识的同时保持非目标事实、模型效用和跨模态一致性的能力。研究还提出边界感知优化方法（BAO），有效强化了模型在个体事实边界上的控制能力。

2605.08799 2026-05-12 cs.RO

ElasticFlow: One-Step Physics-Consistent Policy with Elastic Time Horizons for Language-Guided Manipulation

Kewei Chen, Yayu Long, Shuai Li, Mingsheng Shang

AI总结 ElasticFlow 是一种无需蒸馏的、物理一致的一步式策略框架，用于语言引导的机器人操作任务。该方法通过直接建模平均速度场重建平均场理论，实现从噪声到动作的单步映射，同时引入弹性时间跨度机制，有效克服频谱偏差，提升语义指令与物理执行的对齐效率。实验表明，ElasticFlow 在多个基准上实现了高效的1-NFE推理（约71Hz），并在长时序任务中优于现有先进方法，展现出高效、鲁棒且语义对齐的控制潜力。

Comments Accepted to Findings of ACL 2026