arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12245 2026-05-13 cs.LG

SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization

Chengzhu Bao, Xianglong Yan, Zhiteng Li, Guangshuo Qin, Guanghua Yu, Yulun Zhang

AI总结 SOAR 是一种针对 NVFP4 量化格式的后训练量化框架，旨在提升大语言模型在 4 位微缩量化下的重建精度。该方法提出闭式联合尺度优化（CJSO）和解耦尺度搜索（DSS）技术，通过联合优化全局与块级尺度并解耦量化与反量化尺度，有效缓解了传统方法中尺度选择不灵活和精度损失的问题。实验表明，SOAR 在多个大语言模型上均优于现有 NVFP4 量化方法，在相同内存占用下实现了更高的精度。

2605.12243 2026-05-13 cs.CL

PreScam: A Benchmark for Predicting Scam Progression from Early Conversations

Weixiang Sun, Shang Ma, Yiyang Li, Tianyi Ma, Zehong Wang, Colby Nelson, Xusheng Xiao, Yanfang Ye

AI总结 PreScam 是一个用于从早期对话中预测诈骗进展的基准数据集，旨在研究如情感诈骗和投资诈骗等多轮对话型诈骗的演变过程。该数据集基于用户提交的诈骗报告构建，包含11,573个涵盖20类诈骗的对话实例，并按照诈骗生命周期进行结构化标注，标注内容包括诈骗者的心理操作和受害者的回应。研究通过两个任务评估模型能力，结果显示当前模型在捕捉诈骗线索方面有一定成效，但在追踪风险升级和跨轮次操控方面仍存在较大挑战。

2605.12242 2026-05-13 cs.CL cs.AI

Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs

Deepak Kumar, Baban Gain, Asif Ekbal

AI总结自动语音识别（ASR）生成的文本常包含停顿、重复和误起等不流畅现象，影响可读性和下游应用效果。本文提出一种基于大语言模型（LLM）的多语言语音文本流畅性修正方法，通过序列标注识别不流畅词元，并结合指令微调与对比学习优化模型，使其在去除不流畅内容的同时保持语义和语法完整性。实验表明，该方法在印地语、孟加拉语和马拉地语上显著优于现有基线模型，验证了其有效性与实用性。

Comments Accepted to ACL 2026 (Main)

2605.12240 2026-05-13 cs.AI

No Action Without a NOD: A Heterogeneous Multi-Agent Architecture for Reliable Service Agents

Zixu Yang, Hang Zheng, Nan Jiang, Zhiyang Tang, Situo Zhang, Xiaobao Wu, Lu Chen, Kai Yu

AI总结本文提出了一种异构多智能体架构NOD（Navigator-Operator-Director），用于提升服务型智能体在长期任务中的可靠性。该架构通过引入结构化的全局状态显式跟踪任务进展，并引入独立的Director智能体在关键操作前进行验证和干预，有效减少了策略违规、工具幻觉和用户意图偏差等问题。实验表明，NOD在任务成功率和关键操作精度方面优于现有方法，显著提升了服务智能体的可靠性。

2605.12237 2026-05-13 cs.CV

UHR-Micro: Diagnosing and Mitigating the Resolution Illusion in Earth Observation VLMs

Shuo Ni, Tong Wang, Jing Zhang, He Chen, Haonan Guo, Ning Zhang, Bo Du

AI总结随着超高分辨率（UHR）地球观测图像的广泛应用，视觉-语言模型（VLMs）在处理这类数据时面临“分辨率幻觉”问题，即高分辨率输入虽能提供更丰富的视觉细节，却难以可靠地识别微小目标。为此，研究提出UHR-Micro基准，包含11,253条基于1,212张UHR图像的指令，用于评估VLM在微尺度目标识别上的性能，并引入Micro-evidence Active Perception（MAP）方法，通过主动定位和解析任务相关微小证据，提升模型对高分辨率图像中微小目标的感知能力。该研究为诊断和改进地球观测VLM的高分辨率推理能力提供了系统平台。

2605.12236 2026-05-13 cs.RO cs.AI cs.LG

TMRL: Diffusion Timestep-Modulated Pretraining Enables Exploration for Efficient Policy Finetuning

Matthew M. Hong, Jesse Zhang, Anusha Nagabandi, Abhishek Gupta

AI总结该论文提出了一种名为 TMRL 的方法，通过引入扩散时间步调节的预训练策略，解决基于行为克隆的预训练策略在强化学习微调过程中探索能力不足的问题。核心方法包括 Context-Smoothed Pre-training（CSP）和 Timestep-Modulated Reinforcement Learning（TMRL），前者通过在策略输入中注入扩散噪声，增强动作分布的广泛性，后者则在微调阶段动态调节扩散时间步，从而有效控制探索过程。该方法在多种策略输入形式下均表现出更高的样本效率，并在复杂现实任务中实现了高效微调。

2605.12233 2026-05-13 cs.LG cs.AI cs.CR

No More, No Less: Task Alignment in Terminal Agents

Sina Mavali, David Pape, Jonathan Evertz, Samira Abedini, Devansh Srivastav, Thorsten Eisenhofer, Sahar Abdelnabi, Lea Schönherr

AI总结本文研究了终端智能体在执行复杂任务时如何正确理解并选择性遵循环境中的指令，而非盲目接受或完全忽略。为此，作者提出了一个新的基准测试TAB，包含89个精心设计的任务，每个任务都包含必要的线索和干扰信息，要求智能体能够区分并仅使用有效线索完成任务。实验表明，当前最先进的终端智能体在任务完成能力与任务对齐之间存在系统性差距，揭示了现有模型在选择性遵循环境指令方面仍面临挑战。

2605.12228 2026-05-13 cs.RO

Morphologically Equivariant Flow Matching for Bimanual Mobile Manipulation

Max Siebenborn, Daniel Ordoñez Apraez, Sophie Lueth, Giulio Turrisi, Massimiliano Pontil, Claudio Semini, Georgia Chalvatzaki

AI总结该论文研究了双臂移动机器人的协调控制问题，提出了一种基于形态对称性的流匹配方法，以提升模仿学习的效率和泛化能力。通过形式化双臂系统的镜像对称性先验，作者设计了一种具有$\mathbb{C}_2$对称性的策略网络，能够在训练中强制保持反射对称性，从而在未见过的镜像配置上实现零样本泛化。实验表明，该方法在多种移动操作任务中显著提升了样本效率，并在真实机器人平台上验证了其有效性。

Comments Preprint. 4 pages, 5 figures

2605.12227 2026-05-13 cs.CL

Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

AI总结该研究旨在提升大语言模型在长上下文任务中的推理能力，针对现有方法在准确性、稳定性与样本效率方面的不足，提出了一种结合策略优化与知识蒸馏的新方法dGRPO。通过引入基于教师模型的密集指导，该方法在保持模型短上下文能力的同时，有效增强了其在长序列任务中的表现。此外，研究还构建了一个涵盖多跳推理、上下文定位和长文本生成的合成数据集LongBlocks，并通过实验验证了所提方法在长上下文对齐任务中的优越性。

2605.12225 2026-05-13 cs.CL

Mechanistic Interpretability of ASR models using Sparse Autoencoders

Dan Pluth, Zachary Nicholas Houghton, Yu Zhou, Vijay K. Gurbani

AI总结本文研究了基于Transformer的自动语音识别（ASR）模型的机制可解释性，采用稀疏自编码器（SAE）方法，将Whisper模型的帧级编码表示映射到高维稀疏潜在空间中。通过该方法，研究发现了跨越语言和非语言特征的多样化单语义特征，并展示了跨语言特征引导的能力，证明了SAE在ASR模型解释中的有效性，揭示了Whisper编码器中丰富的语言信息。

Comments 10 pages + references and appendix

2605.12224 2026-05-13 cs.LG

Intrinsic Vicarious Conditioning for Deep Reinforcement Learning

Rodney A Sanchez, Ferat Sahin, Alex Ororbia, Jamison Heard

AI总结该论文提出了一种名为“内在替代性条件作用”的内在奖励机制，旨在克服传统强化学习中直接条件作用的局限性。该方法借鉴心理学和生物学原理，通过基于记忆的机制实现注意、保持、再现和强化四个关键步骤，无需依赖示范智能体的策略或奖励函数，从而支持低样本学习。实验表明，该方法在多个环境中有效延长了任务时长，提升了智能体对非描述性终止状态的处理能力，为单次生命学习和持续学习等场景提供了更符合认知机制的学习范式。

2605.12220 2026-05-13 cs.CV cs.AI cs.LG cs.RO

TriBand-BEV: Real-Time LiDAR-Only 3D Pedestrian Detection via Height-Aware BEV and High-Resolution Feature Fusion

Mohammad Khoshkdahan, Alexey Vinel

AI总结本文提出了一种基于高度感知鸟瞰图（BEV）和高分辨率特征融合的实时激光雷达-only 3D行人检测方法TriBand-BEV，通过将三维点云映射到三个高度带的二维BEV张量，将3D检测问题转化为2D检测问题，并从BEV输出重建3D边界框。该方法在单一网络中实现了对车辆、行人和骑行者的联合检测，采用层次化双向特征融合和分布焦点学习等技术，在KITTI数据集上取得了优于现有方法的检测性能，且运行速度高达49 FPS，适用于实时机器人部署。

Comments Accepted for publication in the Proceedings of the 2026 International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2026)

2605.12218 2026-05-13 cs.CV

Learning Ego-Centric BEV Representations from a Perspective-Privileged View: Cross-View Supervision for Online HD Map Construction

Daniel Lengerer, Mathias Pechinger, Klaus Bogenberger, Carsten Markgraf

AI总结本文研究了如何从多摄像头输入中学习以自我为中心的鸟瞰图（BEV）表示，用于在线高精度地图构建。为了解决现有方法依赖单一自车视角监督导致的结构推理不一致问题，作者提出了跨视角监督（CVS）方法，通过从俯视视角向摄像头BEV编码器迁移几何和拓扑先验知识，从而提升结构一致性。实验表明，CVS在标准和扩展区域的mAP指标上均有显著提升，验证了其在长距离地图构建中的有效性。

2605.12207 2026-05-13 cs.LG cs.AI cs.CL

Not How Many, But Which: Parameter Placement in Low-Rank Adaptation

Arijit Sehanobish, Charles Lovering

AI总结本文研究了低秩适配（LoRA）中参数放置的问题，即在固定可训练参数数量的条件下，选择哪些参数进行微调对模型性能影响更大。研究发现，在监督微调任务中，随机选择和基于梯度信息选择的参数效果相近，但在基于梯度的参数优化（GRPO）任务中，只有基于梯度信息的参数选择能有效提升性能。作者提出了一种高效的参数评分方法，能够在极低计算成本下识别出对模型性能关键的参数，这些参数主要集中在残差流写入相关的投影层，并在不同规模的模型中表现出一致性。

Comments Preprint. Comments welcome

2605.12206 2026-05-13 cs.LG

On the Importance of Multistability for Horizon Generalization in Reinforcement Learning

Asad Bakija, Florent De Geeter, Julien Brandoit, Pierre Sacré, Guillaume Drion

AI总结在强化学习中，智能体在部分可观测马尔可夫决策过程（POMDP）中需要依赖记忆机制（通常由循环神经网络实现）来整合历史观测信息。本文研究了长期地平线任务中智能体的行为泛化问题，提出时间地平线泛化这一概念，并推导出其必要且充分的条件。研究发现，多稳定性是实现时间地平线泛化的必要条件，而现代可并行化架构如状态空间模型和门控线性RNN由于结构上的单稳性，无法实现跨地平线的泛化，因此设计兼具多稳定性和瞬态动态的可并行化架构成为长期强化学习的关键方向。

Comments 23 pages, 6 figures

2605.12200 2026-05-13 cs.LG

Investigating simple target-covariate relationships for Chronos-2 and TabPFN-TS

Gaspard Berthelier, Mariia Baranova, Andrei-Tiberiu Pantea, Etienne Le Naour, Adrien Petralia, Tahar Nabil, Themis Palpanas

AI总结本文研究了时间序列基础模型（TSFM）Chronos-2和TabPFN-TS在处理简单目标-协变量关系时的表现。通过设计受控实验，作者评估了这两种模型对协变量整合的能力，结果表明TabPFN-TS在短时间预测任务中更有效地捕捉这些关系，说明Chronos-2的优秀基准性能并不一定意味着其在简单协变量依赖建模方面最优。

2605.12199 2026-05-13 cs.LG cs.AI

Overtrained, Not Misaligned

Joel Schreiber, Ariel Goldstein

AI总结本文研究了“新兴对齐偏差”（EM）现象，即在特定任务上微调大语言模型会导致其在无关领域出现广泛偏差。通过对12个开源模型的系统实验，发现EM并非普遍现象，且模型规模与EM敏感性存在显著相关性。研究进一步表明，EM在训练后期出现，可通过提前停止训练或合理选择学习率有效避免，为实际应用提供了可行的缓解策略。

Comments Under review at CoLM 2026; companion to Nature Matters Arising (also under review). 25 pages, 6 figures

2605.12198 2026-05-13 cs.CV

Enhancing Domain Generalization in 3D Human Pose Estimation through Controllable Generative Augmentation

Xinhao Hu, Yiyi Zhang, Liqing Zhang, Jianfu Zhang

AI总结该研究针对3D人体姿态估计中因训练与测试数据分布差异导致的领域泛化问题，提出了一种可控的生成增强框架，通过系统地变化姿态、背景和摄像机视角生成多样化的视频数据。该方法通过融合室内外真实与虚拟数据集，构建适用于实际部署场景的丰富训练数据，显著提升了模型在未知场景和数据集上的性能。

2605.12197 2026-05-13 cs.LG

A Unified Graph Language Model for Multi-Domain Multi-Task Graph Alignment Instruction Tuning

Haibo Chen, Xin Wang, Jiaheng Chao, Ling Feng, Wenwu Zhu

AI总结本文提出了一种统一的图语言模型UniGraphLM，旨在解决多领域多任务图对齐中的表示对齐问题。该模型通过引入多领域多任务图神经网络编码器，学习具有跨领域和跨任务泛化能力的图表示，并将其与大语言模型的token空间进行自适应对齐。该方法有效克服了现有图语言模型在跨领域和跨任务对齐中的局限性，为图数据的通用语言理解提供了新的解决方案。

2605.12195 2026-05-13 cs.LG

Fair Conformal Classification via Learning Representation-Based Groups

Senrong Xu, Yanke Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Taolue Chen, Feng Xu, Xiaoxing Ma

AI总结该论文提出了一种用于分类任务的公平合规模型预测框架，旨在解决传统合规模型预测方法在保障统计覆盖性的同时忽视算法偏倚的问题。研究通过学习表示方式动态识别子群体，并在这些子群体上保证条件覆盖，从而实现公平性与预测效用的平衡。实验表明，该方法在合成和真实数据集上均能有效提升预测的公平性与可靠性。

2605.12185 2026-05-13 cs.CL cs.AI

Mitigating Context-Memory Conflicts in LLMs through Dynamic Cognitive Reconciliation Decoding

Yigeng Zhou, Wu Li, Yifan Lu, Yequan Wang, Xuebo Liu, Wenya Wang, Jun Yu, Min Zhang, Jing Li

AI总结本文研究了大语言模型在处理上下文与记忆知识冲突时的问题，提出了一种名为动态认知协调解码（DCRD）的两阶段解码方法，用于预测并缓解冲突。该方法通过分析注意力图评估上下文可信度，并根据预测结果选择贪心解码或基于上下文可信度的动态解码路径，从而在冲突场景下提升生成质量，同时保持无冲突情况下的高效性。此外，作者构建了ConflictKG基准数据集，实验表明DCRD在多个问答任务中优于现有方法，达到当前最优性能。

Comments Accepted by IEEE TASLP

2605.12183 2026-05-13 cs.LG cs.AI

DriftXpress: Faster Drifting Models via Projected RKHS Fields

Ali Falahati, Elliot Creager, Gautam Kamath, Shubhankar Mohapatra

AI总结 DriftXpress 是一种基于投影再生核希尔伯特空间（RKHS）场的加速漂移模型方法，旨在提升生成模型的训练效率。该方法通过在低秩特征空间中近似漂移核，保持原始漂移场的吸引-排斥结构，同时降低场评估的计算成本。实验表明，DriftXpress 在保持图像生成质量的同时，显著减少了训练时间，进一步优化了漂移模型的训练-推理权衡。

2605.12182 2026-05-13 cs.RO

DexTwist: Dexterous Hand Retargeting for Twist Motion via Mixed Reality-based Teleoperation

Dongmyoung Lee, Chengxi Li, Dongheui Lee

AI总结本文提出了一种基于混合现实的灵巧手遥操作框架DexTwist，用于解决在旋转操作任务中传统姿态映射方法的不足。该方法通过检测三指捏持动作，估计操作者的螺旋轴和旋转幅度，并在关节空间中实时优化，以提高旋转过程中的稳定性与精度。实验表明，DexTwist在旋转角度跟踪和螺旋轴稳定性方面优于基于向量映射的基线方法。

Comments 6 pages, 5 figures, 2 tables. Dongmyoung Lee and Chengxi Li contributed equally to this research

2605.12181 2026-05-13 cs.AI

MolDeTox: Evaluating Language Model's Stepwise Fragment Editing for Molecular Detoxification

Jueon Park, Wonjune Jang, Jiwoo Lee, Yein Park, Jaewoo Kang

AI总结本文提出 MolDeTox，一个用于分子解毒的新型基准，旨在评估语言模型在逐步片段编辑任务中对分子毒性的优化能力。该基准解决了现有模型在毒性修复任务中数据多样性不足、分子结构有效性低以及依赖代理模型评估毒性等问题，通过细粒度任务分析提供可解释的评估框架。实验表明，基于片段级别的分子理解和生成能够提升结构有效性和分子质量，为药物安全性优化提供了新的研究方向。

2605.12179 2026-05-13 cs.CV

SyncDPO: Enhancing Temporal Synchronization in Video-Audio Joint Generation via Preference Learning

Xin Cheng, Xihua Wang, Ying Ba, Yuyue Wang, Kaisi Guan, Yinbo Wang, Wenpu Li, Ruihua Song

AI总结 SyncDPO 是一种通过偏好学习提升视频-音频联合生成中时间同步能力的后训练框架。该方法通过引入基于规则的实时负样本生成策略，有效增强了模型对时间错位的敏感性，避免了传统方法中高昂的采样和排序成本。实验表明，SyncDPO 在多个基准测试中显著提升了模型的时间对齐能力，并在分布外数据上展现出优越的泛化性能。

Comments Preprint. Under review

详情

英文摘要

Recent advancements in video-audio joint generation have achieved remarkable success in semantic correspondence. However, achieving precise temporal synchronization, which requires fine-grained alignment between audio events and their visual triggers, remains a challenging problem. The post-training method for joint generation is largely dominated by Supervised Fine-Tuning, but the commonly used Mean Squared Error loss provides insufficient penalties for subtle temporal misalignments. Direct Preference Optimization offers an alternative by introducing explicit misaligned counterparts to better improve temporal sensitivity. In this paper we propose a post-training framework SyncDPO, leveraging DPO to improve the temporal sensitivity of V-A joint generation. Conventional DPO pipelines typically depend on costly sampling-and-ranking procedures to construct preference pairs, resulting in substantial computational cost. To improve efficiency, we introduce a suite of on-the-fly rule-based negative construction strategies that distort temporal structures without incurring additional annotation or sampling. We demonstrate that the temporal alignment capability can be effectively reinforced by providing explicit negative supervision through temporally distorted V-A pairs. Accordingly, we implement a curriculum learning strategy that progressively increases the difficulty of negative samples, transitioning from coarse misalignment to subtle inconsistencies. Extensive objective and subjective experiments across four diverse benchmarks, ranging from ambient sound videos to human speech videos, demonstrate that SyncDPO significantly outperforms other methods in improving model's temporal alignment capability. It also demonstrates superior generalization on out-of-distribution benchmark by capturing intrinsic motion-sound dynamics. Demo and code is available in https://syncdpo.github.io/syncdpo/.

URL PDF HTML ☆

赞 0 踩 0

2605.12178 2026-05-13 cs.AI cs.CL cs.LG

Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

Jishnu Sethumadhavan Nair, Patrice Bechard, Rishabh Maheshwary, Surajit Dasgupta, Sravan Ramachandran, Aakash Bhagat, Shruthan Radhakrishna, Pulkit Pattnaik, Johan Obando-Ceron, Shiva Krishna Reddy Malay, Sagar Davasam, Seganrasan Subramanian, Vipul Mittal, Sridhar Krishna Nemala, Christopher Pal, Srinivas Sunkara, Sai Rajeswar

AI总结本文探讨了企业系统中是否需要学习世界模型的问题，指出由于企业系统的动态行为由租户特定的业务逻辑定义且随时间变化，传统基于历史数据训练的模型在部署变化时表现不佳。研究提出了一种新的方法——企业发现代理，通过在推理时读取系统配置来获取动态规则，从而提高预测的鲁棒性。实验表明，与依赖离线训练的模型相比，基于运行时发现的代理在面对动态变化时更具适应性。

2605.12177 2026-05-13 cs.CL

Correcting Selection Bias in Sparse User Feedback for Large Language Model Quality Estimation: A Multi-Agent Hierarchical Bayesian Approach

Andrea Morandi, Mahesh Viswanathan

AI总结本文研究了在用户反馈稀疏且存在选择偏差的情况下，如何准确评估大型语言模型的质量。作者提出了一种基于多智能体的分层贝叶斯方法，无需真实标签即可对反馈进行去偏处理。该方法通过主题聚类、偏差建模和合成推理三个智能体协同工作，有效纠正了由用户反馈分布不均带来的估计偏差，并在实验中表现出优于传统方法的性能。

2605.12176 2026-05-13 cs.LG

Multi-Task Representation Learning for Conservative Linear Bandits

Jiabin Lin, Shana Moothedath

AI总结本文提出了一种用于保守线性老虎机的约束多任务表示学习框架（CMTRL）。该框架假设多个线性老虎机任务共享一个低维的公共表示，并且每个任务的动作选择受到安全或性能约束。作者设计了一种新的算法Safe-AltGDmin，在满足约束的前提下学习低秩特征矩阵，并建立了该框架在遗憾和样本复杂度方面的理论保证。实验结果表明，该方法在多个任务上的表现优于现有基准算法。

2605.12174 2026-05-13 cs.LG math.PR

Expected Batch Optimal Transport Plans and Consequences for Flow Matching

Samuel Boïté, Julie Delon, Kimia Nadjahi

AI总结本文研究了在大规模学习中使用随机小批量解决最优传输（OT）问题的理论性质，特别是在流匹配（FM）中的应用。作者提出了期望批量OT计划 $\overlineπ_{k}$，通过在独立小批量上平均经验OT计划来定义整体耦合，并分析了其在大批量情况下的一致性。在生成模型相关的半离散情形下，作者推导了传输成本偏差和 $\overlineπ_{k}$ 收敛到真实OT计划的收敛速率，为流匹配提供了更稳定的理论支撑，并通过实验验证了批量大小对数值积分的影响。

2605.12171 2026-05-13 cs.LG

Lower bounds for one-layer transformers that compute parity

Daniel Hsu

AI总结本文研究了一层Transformer模型能否通过自注意力机制和有理函数后处理来表示异或（parity）函数的问题，证明了除非头数与后处理函数的次数乘积随输入长度线性增长，否则无法实现该函数的符号表示。该结果结合ReLU网络的有理逼近，进一步得出了针对ReLU后处理自注意力层的依赖边距的下界扩展，为理解Transformer模型的表达能力提供了理论依据。