arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.07424 2026-05-11 cs.LG

A Flexible Adaptive Stable Clustering Algorithm for Archive-Scale Online Mass Spectrometry

Shao Shi, Xin Yang, Huiran Feng, Jianhuai Ye, Tianlong Hu, Yaling Zeng, Tzung-May Fu, Lei Zhu, Huizhong Shen, Chen Wang, Shu Tao

AI总结该研究针对在线质谱分析中产生的大规模数据流，提出了一种名为FASC的灵活自适应稳定聚类算法，旨在解决现有方法在可扩展性、度量灵活性和算法稳定性之间的权衡问题。FASC通过将相似性核与优化逻辑解耦，结合密度增强相似性选择规则和几何约束，实现了确定性、顺序无关的收敛。实验表明，该算法在标准数据集上表现出优异的聚类性能，并成功应用于大气气溶胶质谱数据，实现了线性时间复杂度，有效揭示了次级无机气溶胶的老化路径并检测出极低丰度的工业示踪物。

2605.07420 2026-05-11 cs.LG cs.CV

SR$^2$-LoRA: Self-Rectifying Inter-layer Relations in Low-Rank Adaptation for Class-Incremental Learning

Fengqiang Wan, Yipeng Lin, Kan Lv, Yang Yang

AI总结在类增量学习中，预训练模型通过参数高效的微调方法虽然表现出潜力，但在适应新任务时仍面临灾难性遗忘问题。本文从层间关系漂移的角度分析了这一问题，提出了一种新的方法SR$^2$-LoRA，通过约束层间关系的变化来缓解遗忘。该方法通过对齐当前任务样本在旧模型和新模型中的关系矩阵的奇异值，有效提升了模型在多任务场景下的鲁棒性和性能。

2605.07418 2026-05-11 cs.CV

Learning Image-Adaptive Scale Fields for Metric Depth Recovery

Yuanyan Li, Matthias Althoff

AI总结本文研究了如何在仅有稀疏度量锚点的情况下，从单目深度估计中恢复准确的度量深度。作者提出了一种图像自适应的尺度场建模方法，通过将深度校正转化为图像自适应基图的低维线性组合，结合语义和几何线索进行建模，并利用最小二乘法从稀疏锚点中高效求解权重。该方法在多个数据集和典型深度估计模型上均表现出优异的度量深度恢复效果和鲁棒性。

2605.07413 2026-05-11 cs.LG

Risk-Consistent Multiclass Learning from Random Label-Subset Membership Queries

Jiaxu Su, Junpeng Li, Changchun Hua, Yana Yang

AI总结在获取精确类别标签成本高或不可靠的情况下，本文研究了通过随机标签子集成员查询进行多类学习的问题。该方法通过询问真实标签是否属于某个标签子集来获取弱监督信息，并提出了一个基于经验风险最小化框架的学习框架。文章推导了目标风险的无偏估计，并引入了修正风险估计器以解决负经验风险和过拟合问题，理论分析证明了其泛化能力和一致性，实验验证了该方法的有效性。

2605.07412 2026-05-11 cs.LG cs.AI

Tracking Large-scale Shared Bikes with Inertial Motion Learning in GNSS Blocked Environments

Feng Liu, Kejia Li, Zhiwei Yang, Chunwei Yang, Qun Li, Guobin Wu, Qiang Ni, Ruipeng Gao

AI总结本文研究了在GNSS信号受阻的复杂环境中，如何利用惯性导航系统对大规模共享自行车进行高精度轨迹跟踪的问题。为了解决低成本惯性传感器累积漂移和鲁棒性差的问题，作者提出了一种结合自行车机械约束和专家混合模型的惯性跟踪框架，通过多专家模块和门控机制提升多任务学习性能，并实现不确定性感知的轨迹估计。实验表明，该方法在实际骑行数据上将基线精度提升了至少12%，轮速误差在95百分位下低于0.5米每秒。

Comments It has been submitted to IEEE Transactions on Intelligent Transportation Systems (T-ITS). Journal article. 14 pages, 18 figures, 10 tables

2605.07409 2026-05-11 cs.CL cs.LG stat.AP

The Proxy Presumption: From Semantic Embeddings to Valid Social Measures

Baishi Li, Ta Yu, Kelvin J. L. Koa, Ke-Wei Huang

AI总结本文探讨了自然语言处理在计算社会科学中的应用中面临的一个核心有效性问题——“代理假设”，即直接使用语义嵌入的几何特性（如余弦距离）来衡量社会概念（如新颖性、创造力等）可能引入偏差。为此，研究提出了“构念效度协议”（CVP），结合因果表征学习和心理测量学方法，构建从概念定义到量化验证的严谨流程，并引入“反事实中和”方法以减少嵌入空间中的混淆因素，为社区提供了一套标准化的效度检验工具，助力将经验性代理指标转化为科学可靠的测量工具。

Comments ACL 2026

2605.07407 2026-05-11 cs.LG

Emergent Symbolic Structure in Health Foundation Models: Extraction, Alignment, and Cross-Modal Transfer

Gajendra Katuwal, Advait Koparkar, Salar Abbaspourazad, Anshuman Mishra, Sarvesh Kirthivasan

AI总结健康基础模型（FMs）能够从可穿戴设备传感器中学习有用的表示，但解释其编码内容以及在训练后跨模态迁移知识仍具挑战。本文提出了一种后训练框架，将冻结的嵌入分解为可解释的方向，即“符号”，并利用这些符号对齐嵌入空间而无需重新训练。研究在三个基于光电容积描记（PPG）和加速度计数据的健康基础模型上进行验证，结果显示提取的符号与健康状况和生理属性具有选择性关联，并在不同模态和架构间部分共享，表明符号对齐能够恢复一个富含生理信息的共享低维子空间，支持跨模态知识迁移。

Comments 8 pages ICML workshop, 4 main figures

2605.07402 2026-05-11 cs.CV

InsHuman: Towards Natural and Identity-Preserving Human Insertion

Jie Li, Shulian Zhang, Yangyang Gao, Wenbo Li, Yulun Zhang, Yong Guo, Jian Chen

AI总结 InsHuman 是一种旨在自然且保留身份地将特定人物插入目标背景中的图像编辑方法。该方法提出了 Human-Background Adaptive Fusion（HBAF）和 Face-to-Face ID-Preserving（FFIP）两种技术，分别用于对齐人体区域和保持面部身份一致性，并构建了包含真实人物与背景交互的高质量数据集 BDP-InsHuman。实验表明，InsHuman 在生成合理图像的同时能够有效保持人物身份不变，显著提升了人体插入的效果。

2605.07398 2026-05-11 cs.CV cs.AI

Exposing and Mitigating Temporal Attack in Deepfake Video Detection

Zheyuan Gu, Minghao Shao, Zhen Wang, Yusong Wang, Mingkun Xu, Shijie Zhang, Hao Jiang

AI总结该研究揭示了时空深度伪造检测模型在面对时序攻击时的脆弱性，指出其过度依赖易受攻击的时频特征而非学习鲁棒的语义因果关系。为此，作者提出了SpInShield防御框架，通过引入可学习的时频对抗者和快捷路径抑制优化策略，有效分离语义运动与可操控的时频伪影，从而提升模型的鲁棒性。实验表明，SpInShield在多个数据集上表现出色，在模拟幅度谱攻击下显著优于现有最强基线。

2605.07397 2026-05-11 cs.LG math.AT

Have Graph -- Will Lift? The Case for Higher-Order Benchmarks

Bastian Rieck

AI总结本文探讨了几何与拓扑在机器学习中的应用现状，指出尽管消息传递机制在图和高阶复合结构上已成为几何深度学习的重要驱动力，但目前缺乏适合的基准数据集。作者呼吁学界不仅应将现有图数据集扩展为高阶结构，还应积极构建新的高阶基准数据集，以推动拓扑深度学习领域的发展。

2605.07396 2026-05-11 cs.LG cs.AI

Rubric-based On-policy Distillation

Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua

AI总结本文提出了一种基于评分标准的策略优化蒸馏方法（ROPD），旨在解决传统基于教师模型输出的策略蒸馏方法在黑盒场景下应用受限的问题。该方法通过从教师与学生的对比中生成任务特定的评分标准，并利用这些标准对学生的策略进行评估和优化，从而实现无需教师模型输出的策略蒸馏。实验表明，ROPD在多数场景下优于现有基于输出的蒸馏方法，样本效率提升了10倍，为黑盒场景下的模型对齐提供了灵活且高效的解决方案。

Comments Preprint. Code is available at https://github.com/Peregrine123/ROPD_official

2605.07395 2026-05-11 cs.LG cs.AI cs.CL

Unsolvability Ceiling in Multi-LLM Routing: An Empirical Study of Evaluation Artifacts

Saloni Garg, Amit Sagtani

AI总结本文通过大规模实验研究了多大型语言模型（LLM）路由中的“不可解上限”问题，发现许多所谓的不可解查询实际上源于评估偏差，如判断者偏好冗长输出、生成长度限制和输出格式不匹配等。研究提出了一种分解框架，揭示了这些评估偏差在不同任务和模型家族中的普遍影响，并指出标准路由方法会因偏差导致性能下降，产生显著的机会成本。研究还提供了改进路由评估和训练的可行建议，强调了在多LLM系统中建立可靠评估协议的重要性。

Comments 12 pages, 14 tables

2605.07394 2026-05-11 cs.CV cs.AI

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

Shaokai Ye, Vasileios Saveris, Yihao Qian, Jiaming Hu, Elmira Amirloo, Peter Grasch

AI总结本文提出了一种基于强化学习的平衡框架BalCapRL，用于多模态大语言模型的图像描述生成。该方法通过联合优化描述的实用性、参考覆盖度和语言质量，解决了现有方法在不同质量维度上的权衡问题。研究引入了奖励解耦归一化和长度条件奖励掩码技术，有效提升了描述生成的效果，在多个模型上均取得了显著的性能提升。

2605.07393 2026-05-11 cs.AI

Offline Policy Optimization with Posterior Sampling

Hongqiang Lin, Dongxu Zhang, Yiding Sun, Mingzhe Li, Ning Yang, Haijun Zhang

AI总结本文研究了基于模型的离线强化学习中，如何在泛化能力和对分布外区域利用错误的鲁棒性之间取得平衡这一基本挑战。为此，作者提出了一种基于后验采样的策略优化方法（PSPO），将动力学建模视为贝叶斯推断过程，通过后验采样与约束策略优化相结合，既利用分布外的合理动力学转移提升泛化能力，又保证对模型误用的鲁棒性。理论分析表明该方法在Q值估计和策略优化方面具有收敛性，实验结果也验证了其在标准基准上的优越性能。

Comments 25 pages, 3 figures

2605.07390 2026-05-11 cs.CV

ST-Gen4D: Embedding 4D Spatiotemporal Cognition into World Model for 4D Generation

Haonan Wang, Hanyu Zhou, Tao Gu, Luxin Yan

AI总结该论文提出了一种名为ST-Gen4D的4D生成框架，旨在解决现有生成模型在物理世界中缺乏4D时空尺度的问题。其核心方法是通过构建基于4D时空认知的世界模型，将全局外观结构与局部动态拓扑相结合，从而生成具有时空规律性的4D内容。该方法引入了时空表征、认知建模、推理和生成四个关键设计，有效提升了生成结果的结构合理性和拓扑一致性，并在多个3D和4D生成任务中展现出优越性能。

2605.07388 2026-05-11 cs.CV

A Marine Debris Detection Framework for Ocean Robots via Self-Attention Enhancement and Feature Interaction Optimization

Yuyang Li, Jiashu Han, Yinyi Lai, Wenbin Kang, Zenghui Liu

AI总结本文提出了一种用于海洋机器人垃圾检测的YOLO-MD框架，旨在解决因图像模糊、背景复杂和目标尺寸小而导致的检测性能下降问题。该方法引入了双分支卷积增强自注意力模块（DB-CASA）以提升特征表示能力，并设计了轻量级位移操作以优化多尺度目标的细粒度特征提取，同时提出了动态样本重加权的SFG-Loss以缓解类别不平衡和优化不稳定问题。实验表明，YOLO-MD在UODM数据集上取得了优于现有方法的检测精度和性能，并已在实际机器人边缘部署中验证了其有效性。

2605.07386 2026-05-11 cs.LG cs.DS math.OC

Convex Optimization with Nested Evolving Feasible Sets

Karthick Krishna M., Haricharan Balasundaram, Rahul Vaze

AI总结本文研究了一类凸优化问题，其中目标函数固定，但可行域随时间演化为嵌套序列。算法需要在保证每一步可行性的同时，最小化累积遗憾和移动成本。作者提出了一种懒惰算法，在凸损失函数下实现了遗憾和移动成本的平衡，而在强凸或α-锐利损失函数下提出的Frugal算法则实现了零遗憾和对数级别的移动成本，并证明了其最优性。

2605.07381 2026-05-11 cs.RO cs.AI

Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation

Yanzhe Chen, Kevin Yuchen Ma, Qi Lv, Yiqi Lin, Zechen Bai, Chen Gao, Mike Zheng Shou

AI总结在机器人操作任务中，视觉-语言-动作（VLA）模型的部署面临“体现差距”问题，而有限的现实数据预算使得适应过程更具挑战。本文发现，传统的“最大化覆盖度”采样策略可能因估计噪声而陷入多样性陷阱，进而影响策略性能。为此，作者提出了一种基于覆盖-密度权衡的分析框架，并设计了锚点中心自适应（ACA）方法，通过在关键锚点上进行重复演示稳定策略框架，再结合误差挖掘与约束残差更新扩展高风险边界，显著提升了任务成功率与可靠性。

Comments 21 pages, 8 figures

2605.07375 2026-05-11 cs.LG cs.CE cs.NA math.NA

QuadNorm: Resolution-Robust Normalization for Neural Operators

Bum Jun Kim, Makoto Kawano, Yusuke Iwasawa, Yutaka Matsuo

AI总结本文提出了一种名为 QuadNorm 的归一化方法，用于提升神经算子在不同分辨率下的鲁棒性。传统归一化方法依赖于离散网格值的均匀平均，导致其对离散化方式敏感，从而在不同分辨率或网格之间引入转移误差。QuadNorm 通过将归一化层中的均匀平均替换为数值积分方法，实现了跨分辨率的归一化一致性，并在多个实验中表现出更优的跨分辨率性能和稳定性。

Comments 42 pages, 8 figures

2605.07370 2026-05-11 cs.RO cs.AI cs.MA cs.SY eess.SY

MORPH-U: Multi-Objective Resilient Motion Planning for V2X-Enabled Autonomous Driving in High-Uncertainty Environments via Simulation

Shih-Yu Lai

AI总结本文研究了在高不确定性环境下，如何通过车路协同（V2X）信息增强自动驾驶车辆的运动规划与控制鲁棒性。提出了一种名为 MORPH-U 的闭环系统，该系统融合多传感器与 V2X 数据构建局部动态地图，并在检测到威胁或地图变化时触发 Hybrid-A* 重新规划。通过多目标优化框架平衡跟踪误差、安全裕度、响应性和平滑性，并引入拜占庭容错机制防止虚假 V2X 信息引发的不安全重规划，实验表明该方法有效提升了系统安全性和控制灵活性。

2605.07367 2026-05-11 cs.RO cs.CV

Weather-Robust Scene Semantics with Vision-Aligned 4D Radar

Kali Hamilton, Christoffer Heckman

AI总结该研究旨在提升恶劣天气下场景语义理解的鲁棒性，提出了一种结合4D雷达与视觉对齐的解决方案。通过将雷达编码器对齐到冻结的SigLIP视觉嵌入，并利用冻结的视觉语言模型生成结构化场景描述，仅需约700万可训练参数即可实现高精度的语义理解。实验表明，该方法在雾、轻雪和重雪等极端天气条件下显著优于基于摄像头的基线方法，并分析了模型设计中的关键权衡因素。

Comments 5 pages + references, 2 appendix pages. ICRA 2026 Radar in Robotics Workshop

2605.07366 2026-05-11 cs.CL

Gradient-Based LoRA Rank Allocation Under GRPO: An Empirical Study

Yash Ganpat Sawant

AI总结本研究探讨了在强化学习（特别是GRPO）中，是否可以将监督微调（SFT）中用于LoRA的自适应秩分配策略迁移过来。通过实验发现，在GRPO下按梯度重要性分配秩反而会降低模型性能，相较均匀分配，准确率下降了4.5个百分点。研究揭示了两个关键原因：一是GRPO的梯度景观更平坦，各层梯度信号均较为重要；二是非均匀秩分配会放大梯度差异，形成正反馈，导致高秩层吸收更多梯度而低秩层逐渐失效。因此，强化学习中的秩分配策略不能简单沿用SFT的经验。

Comments 4 pages + references

2605.07363 2026-05-11 cs.LG cs.AI

MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference

Ruijie Zhou, Fanxu Meng, Yufei Xu, Tongxuan Liu, Guangming Lu, Muhan Zhang, Wenjie Pei

AI总结本文提出了一种名为 MISA 的混合稀疏注意力机制，用于提升大语言模型在长上下文推理中的效率。MISA 通过将 DSA 中的多个索引头视为专家池，并引入一个轻量路由器选择少量活跃头进行重 token 级评分，从而大幅降低计算成本，同时保持模型表达能力。实验表明，MISA 在不增加训练成本的情况下，在多个基准上实现了与原始 DSA 相当甚至更优的性能，并在长上下文任务中表现出良好的稳定性与准确性。

Comments https://github.com/MuLabPKU/TransArch

2605.07359 2026-05-11 cs.CV

UniISP: A Unified ISP Framework for Both Human and Machine Vision

Hanxi Li, Yao Cheng, Bo Zhang, Li Zeng

AI总结与RGB图像相比，原始传感器数据包含更丰富的信息，对低光等复杂环境下的准确识别尤为重要。传统ISP流程虽然能生成符合人类视觉审美的RGB图像，但可能因压缩和信息丢失影响识别性能；现有方法在处理原始数据时往往难以兼顾视觉美观与计算机视觉任务需求。本文提出UniISP，通过引入混合注意力模块和特征适配器模块，在保证图像视觉质量的同时有效传递信息特征，实验表明该方法在多个数据集和场景中均达到先进水平，具有良好的通用性与有效性。

2605.07356 2026-05-11 cs.CV

UniD-Shift: Towards Unified Semantic Segmentation via Interpretable Share-Private Multimodal Decomposition

Shuai Zhang, Zhecheng Shi, Zhuxiao Li, Jing Ou, Tengxi Wang, Yuan Liu, Wufan Zhao

AI总结本文研究了如何统一处理2D图像与3D点云的语义分割问题，针对LiDAR点云稀疏采样和图像视角依赖性带来的模态对齐困难，提出了一种可解释的共享-私有多模态分解框架。该方法通过结合基于SAM的视觉编码器和基于SPTNet的几何编码器，分别提取互补的语义和几何特征，并将特征分解为共享和私有子空间，从而实现跨模态语义对齐与模态特异性保留。实验表明，该方法在多个基准数据集上取得了优于现有方法的分割精度与计算效率，并具有良好的跨域泛化能力。

2605.07355 2026-05-11 cs.CV cs.AI

TTF: Temporal Token Fusion for Efficient Video-Language Model

Simin Huo, Ning LI

AI总结视频语言模型（VLMs）在处理长视频时面临推理成本迅速增加的问题，视觉token数量随视频长度增长而显著上升。为解决这一问题，本文提出了一种名为**Temporal Token Fusion（TTF）**的训练无关、即插即用的预语言模型token压缩框架，通过利用视频中的结构化时间冗余，自动选择参考帧并进行局部窗口相似性搜索，有效减少视觉token数量。实验表明，TTF在保持基线准确率99.5%的同时，可减少约67%的视觉token，并仅引入约0.16 GFLOPs的额外计算开销，为高效视频理解提供了实用方案。

Comments 14 pages; manuscript submitted to NeurIPS 2026

2605.07353 2026-05-11 cs.AI

Confidence-Aware Alignment Makes Reasoning LLMs More Reliable

Kejia Chen, Jiawen Zhang, Yihong Wu, Kewei Gao, Jian Lou, Zunlei Feng, Mingli Song, Ruoxi Jia

AI总结大型推理模型在得出正确答案时往往依赖于存在缺陷的中间推理步骤，导致最终准确率与推理可靠性之间存在差距。本文提出了一种名为CASPO的框架，通过迭代的直接偏好优化方法，将标记级别的置信度与逐步逻辑正确性对齐，无需训练独立的奖励模型。该方法在推理时引入了基于置信度的思维（CaT），能够以几乎无额外延迟的方式动态剪枝不确定的推理分支，从而提升推理可靠性和效率。实验表明，CASPO在多个基准和模型家族上均表现出色，并且能够扩展到大模型如Qwen3-8B-Base，在多个基准测试中超越了基于树搜索的基线方法。

Comments 9 pages

2605.07351 2026-05-11 cs.CV

Disambiguating 2D-3D Correspondences in Gaussian Splatting-based Feature Fields for Visual Localization

Miso Lee, Sangeek Hyun, Yerim Jeon, Jae-Pil Heo

AI总结本文针对基于高斯泼溅的特征场（GSFF）在视觉定位中的应用问题，提出了一种专门用于定位的GSFF构建框架SplitGS-Loc，以解决其在2D-3D匹配中的歧义问题。该方法通过将每个高斯分解为多个更小的高斯，将多对一的像素-点映射转换为精确的一对一对应关系，同时利用高斯渲染中的组合权重筛选出在多视角中具有显著且一致贡献的高斯，从而增强特征的判别性和多视角一致性。实验表明，SplitGS-Loc在无需场景特定训练或迭代位姿优化的情况下，实现了高精度且高效的视觉定位性能。

2605.07346 2026-05-11 cs.CV

SoLAR: Error-Resilient Streamable Long-Horizon Free-Viewpoint Video Reconstruction with Anchor Activation and Latent Recalibration

Haotian Zhang, Xu Mo, Yixin Yu, Guanhua Zhu, Jian Xue, Tongda Xu, Yan Wang, Jiaqi Zhang, Siwei Ma, Wen Gao

AI总结本文提出了一种名为SoLAR的错误鲁棒流式长时自由视角视频重建框架，解决了现有方法在处理长序列自由视角视频时性能下降的问题。该方法基于率失真优化框架，引入了动态锚点激活机制和潜在差异感知重校准机制，有效提升了重建质量并抑制了误差传播。实验表明，SoLAR在保持最低存储开销的同时实现了最先进的重建效果，为长时自由视角视频的实用化部署提供了新方向。

2605.07345 2026-05-11 cs.CL cs.LG

Mean-Pooled Cosine Similarity is Not Length-Invariant: Theory and Cross-Domain Evidence for a Length-Invariant Alternative

Sibayan Mitra, Dhruv Kumar

AI总结本文指出，常用的均值池化余弦相似度在比较神经表示时并非长度不变，随着序列长度增加，其值会单调增长，与表示内容无关。通过多项跨领域实验证明，长度对跨语言表示相似性的解释能力显著，而使用中心化核对齐（CKA）等长度不变度量可大幅降低长度的影响。研究建议在跨表示比较中应优先采用长度不变的度量方法，以更准确地评估模型的表示能力。

Comments 9 pages, 6 figures. Submitted to the Mechanistic Interpretability Workshop at ICML 2026