arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13540 2026-05-14 cs.LG cs.AI

Decoupled and Divergence-Conditioned Prompt for Multi-domain Dynamic Graph Foundation Models

Haonan Yuan, Qingyun Sun, Junhua Shi, Xingcheng Fu, Jianxin Li, Philip S. Yu

发表机构 * School of Computer Science and Engineering, Beihang University（北航计算机科学与工程学院）； Key Lab of Education Blockchain and Intelligent Technology, Ministry of Education, Guangxi Normal University（教育部教育区块链与智能技术重点实验室，广西师范大学）； Department of Computer Science, University of Illinois at Chicago（伊利诺伊大学芝加哥分校计算机科学系）

AI总结动态图在现实系统中广泛存在，构建具有泛化能力的动态图基础模型是图学习领域的重要前沿。针对多领域动态图语义和时序模式不一致带来的统一建模挑战，本文提出了一种基于解耦与发散条件提示的多领域动态图基础模型DyGFM。该模型通过语义-时序解耦的双分支预训练策略分离可迁移语义与领域特有动态，并引入发散感知的跨领域路由机制与提示生成器，有效缓解负迁移并提升下游任务的微调效率。实验表明，DyGFM在多个动态图基准数据集上显著优于12个先进基线方法。

2605.13539 2026-05-14 cs.RO cs.SE

Integration of an Agent Model into an Open Simulation Architecture for Scenario-Based Testing of Automated Vehicles

Christian Geller, Daniel Becker, Jobst Beckmann, Lutz Eckstein

发表机构 * Institute for Automotive Engineering, RWTH Aachen University（汽车工程研究所，亚琛工业大学）

AI总结本文研究了如何将智能体模型集成到开放仿真架构中，以支持自动驾驶车辆的场景化测试。为解决不同仿真环境间智能体模型互操作性差的问题，作者提出了一种基于标准化接口的模块化集成架构，利用OSI和FMI标准实现工具无关的模型交换。该架构通过在三种主流仿真平台中的应用验证了其通用性与一致性，为自动驾驶系统的安全测试提供了可复用的参考实现。

Journal ref at - Automatisierungstechnik - 2026 - Band 74, Heft 5 - Special Issue: AI for automated driving

详情

DOI: 10.1515/auto-2025-0066

英文摘要

Simulative and scenario-based testing are crucial methods in the safety assurance for automated driving systems. To ensure that simulation results are reliable, the real world must be modeled with sufficient fidelity, including not only the static environment but also the surrounding traffic of a vehicle under test. Thus, the availability of traffic agent models is of common interest to model naturalistic and parameterizable behavior, similar to human drivers. The interchangeability of agent models across different simulation environments represents a major challenge and necessitates harmonization and standardization. To address this challenge, we present a standardized and modular simulation integration architecture that enables the tool-independent integration of traffic agent models. The architecture builds upon the Open Simulation Interface (OSI) as a structured message format and the Functional Mock-up Interface (FMI) for dynamic model exchange. Rather than introducing yet another model or simulation tool, we provide a reusable reference implementation that translates these standards into a practical integration blueprint, including clear interfaces, data mappings, and execution semantics. The generic nature of the architecture is demonstrated by integrating an exemplary agent model into three widely used simulation environments: OpenPASS, CARLA, and CarMaker. As part of the evaluation, we show that the model yields consistent behavior in all simulation platforms, thereby validating the interoperability, modularity, and standard compliance of the proposed architecture. The reference implementation lowers integration barriers, serves as a foundation for future research, and is made publicly available at github.com/ika-rwth-aachen/agent-model-integration

URL PDF HTML ☆

赞 0 踩 0

2605.13537 2026-05-14 cs.LG cs.AI cs.CL

Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment

Ye Wang, Jing Liu, Toshiaki Koike-Akino

发表机构 * Mitsubishi Electric Research Laboratories (MERL)（三菱电机研究实验室）

AI总结本文研究了如何在推理阶段通过对齐方法缓解强化学习中的奖励黑客问题。作者提出了一种新的对齐技术，通过调整参考模型的温度参数，将推理对齐推广到多个生成奖励模型的组合，形成一种称为SLOP的锐化对数意见池方法。该方法不仅提高了模型的鲁棒性，同时保持了对齐性能，为持续适应动态奖励目标提供了有效解决方案。

2605.13536 2026-05-14 cs.LG cs.AI

HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning

Qingyun Zou, Feng Yu, Hongshi Tan, Yao Chen, Bingsheng He, WengFai Wong

发表机构 * National University of Singapore（新加坡国立大学）

AI总结 HLS-Seek 是一种基于代理比较奖励强化学习的高质量代码生成框架，旨在提升高层次综合（HLS）中代码的性能表现（QoR），包括延迟和资源利用率。该方法通过相对比较而非绝对合成结果进行强化学习，显著降低了训练成本，并引入不确定性感知的蒙特卡洛dropout机制以防止奖励欺骗，实现自我优化的奖励系统。实验表明，HLS-Seek 在语法正确性和功能正确性方面均优于现有模型，且训练效率更高，在多个基准测试中表现出优越的QoR性能。

2605.13534 2026-05-14 cs.AI

Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

Jiabei Liu, Wenyu Mao, Junfei Tan, Chunxu Shen, Lingling Yi, Jiancan Wu, Xiang Wang

发表机构 * University of Science and Technology of China（中国科学技术大学）； WeChat Technical Architecture Department, Tecent Inc.（腾讯公司微信技术架构部门）

AI总结本文提出了一种基于强化学习的框架 MultiSearch，用于改进检索增强推理（Retrieval-Augmented Reasoning）的方法。该方法通过在每个推理步骤中生成多个视角的查询并行检索信息，扩大了信息覆盖范围，同时在合并过程中显式整合和优化检索结果，从而提高信噪比（SNR）和推理准确性。实验表明，MultiSearch 在多个基准测试中优于现有方法，显著提升了问答任务的推理性能。

2605.13532 2026-05-14 cs.AI cs.CL cs.CY cs.HC

AI-Generated Slides: Are They Good? Can Students Tell?

Juho Leinonen, Lisa Zhang, Arto Hellas

发表机构 * Aalto University（艾洛大学）； University of Toronto Mississauga（多伦多大学滑铁卢分校）

AI总结本文研究了生成式人工智能（GenAI）在教学中生成幻灯片的应用效果，重点分析了教师和学生对AI生成幻灯片的感知。通过对比多种AI工具生成的幻灯片与人工制作的幻灯片，研究发现AI生成的幻灯片在准确性和教学效果上表现良好，学生难以区分AI生成与人工制作的幻灯片，且对质量评价高的幻灯片更倾向于认为其为人工制作。研究结果表明，GenAI在教学设计中有较大潜力，但也需进一步探索其负责任和有效的应用方式。

Comments 7 pages, 2 tables. Accepted to Western Canada Conference on Computing Education (WCCCE) 2026

2605.13530 2026-05-14 cs.CV cs.AI

Towards Unified Surgical Scene Understanding:Bridging Reasoning and Grounding via MLLMs

Jincai Huang, Shihao Zou, Yuchen Guo, Jingjing Li, Wei Ji, Kai Wang, Shanshan Wang, Weixin Si

发表机构 * Southern University of Science and Technology（南方科技大学）； Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences（深圳先进技术研究院，中国科学院）； Northwestern University（西北大学）； University of Alberta（阿尔伯塔大学）； Yale University（耶鲁大学）； Nanfang Hospital（南华医院）； Shenzhen University of Advanced Technology（深圳大学先进技术研究院）

AI总结本文提出 SurgMLLM，一种统一的手术场景理解框架，旨在将高层语义推理与底层视觉定位相结合，解决现有方法在手术场景中孤立处理各组件导致的语义不一致问题。该方法通过微调多模态大语言模型，实现对手术阶段、工具-动作-目标三元组及对应分割区域的联合建模，并通过时序聚合和分割网络实现精确的像素级定位。实验表明，SurgMLLM 在三元组识别和分割任务上均取得显著提升，验证了统一推理与定位方法在手术辅助中的有效性。

详情

英文摘要

Surgical scene understanding is a cornerstone of computer-assisted intervention. While recent advances, particularly in surgical image segmentation, have driven progress, real-world clinical applications require a more holistic understanding that jointly captures procedural context, semantic reasoning, and precise visual grounding. However, existing approaches typically address these components in isolation, leading to fragmented representations and limited semantic consistency. To address this limitation, we propose SurgMLLM, a unified surgical scene understanding framework that bridges high-level reasoning and low-level visual grounding within a single model. Given surgical videos, SurgMLLM fine-tunes a multimodal large language model (MLLM) to support structured interpretability reasoning, which is used to jointly model phases, instrument-verb-target (IVT) triplets, and triplet-entity segmentation tokens. These tokens are then temporally aggregated and serve as prompts for a segmentation network, enabling accurate pixel-wise grounding of triplet instruments and targets. The entire framework is trained end-to-end with a unified objective that couples language-based reasoning supervision with visual grounding losses, promoting coherent cross-task learning and clinically consistent scene representations. To facilitate unified evaluation, we introduce CholecT45-Scene, extending CholecT45 dataset with 64,299 frames of pixel-level mask annotations for instruments and targets, aligned with existing triplet labels. Extensive experiments show that SurgMLLM significantly advances surgical scene understanding, improving the primary triplet recognition metric AP_IVT from 40.7% to 46.0% and consistently outperforming prior methods in phase recognition and segmentation. These results highlight the effectiveness of unified reasoning-and-grounding for reliable, context-aware surgical assistance.

URL PDF HTML ☆

赞 0 踩 0

2605.13500 2026-05-14 cs.RO cs.CR

Uncertainty-Aware 3D Position Refinement for Multi-UAV Systems

Hosam Alamleh, Damir Pulatov

发表机构 * University of North Carolina Wilmington（北卡罗来纳大学 Wilmington 分校）

AI总结本文研究了多无人机系统中鲁棒的三维位置精炼问题，针对GNSS信号干扰、非视距接收等场景下本地定位估计精度下降的问题，提出了一种去中心化、轻量级的位置精炼方法。该方法通过融合无人机自身的本地估计与邻居共享的状态信息，并结合无人机间的距离约束，实现不确定性感知的邻居信息融合，提升了定位鲁棒性。实验表明，该方法在冷启动阶段和存在恶意节点的情况下均能有效降低定位误差，具有良好的实际应用前景。

2605.13493 2026-05-14 cs.CV

PhysEditBench: A Protocol-Conditioned Benchmark for Dense Physical-Map Prediction with Image Editors

Jiaxin Yang, Yu Hou, Muxin Liu, Weixuan Liu, Ze Yuan, Zeming Chen, Zhongrui Wang, Xiaojuan Qi

发表机构 * Southern University of Science and Technology（南方科技大学）； The University of Hong Kong（香港大学）； East China Normal University（华东师范大学）

AI总结 PhysEditBench 是一个用于评估图像编辑器在密集物理图预测能力的协议条件化基准，涵盖了深度、法线、反照率、粗糙度和金属度五类目标。该基准通过构建目标依赖的数据集，并定义固定的输入输出协议，确保评估的标准化与可靠性。实验表明，尽管图像编辑器在部分指标上可与专业模型媲美，但在结构错误和光照敏感性方面仍存在明显不足。

Comments 48 pages, 12 figures, including references, appendix, and supplementary benchmark details

2605.13487 2026-05-14 cs.LG

Path-independent Flow Matching for Multi-parameter Generative Dynamics

Francisco Téllez, AmirHossein Zamani, Philippe Martin, Shuang Ni, Guy Wolf, Eugene Belilovsky, Sina Sanjari, Yanlei Zhang

发表机构 * Université de Montréal（蒙特利尔大学）； Mila ； Concordia University（康科迪亚大学）； Royal Military College of Canada（加拿大皇家军事学院）； Queen’s University（皇后大学）

AI总结本文提出了一种名为Path-independent Flow Matching (PiFM)的方法，用于学习能够在多参数域中生成路径无关的分布传输的向量场。该方法通过引入结构约束，确保组合变换的一致性，并在适当假设下近似Wasserstein重心，实现了分布插值。实验表明，PiFM在合成和真实数据上均优于现有方法，在生成路径无关轨迹和分布外样本方面表现出色。

Comments 12 pages including references for main part of the document, 26 pages in total when including the appendix. 15 figures in total

2605.13486 2026-05-14 cs.CL

R^2-Mem: Reflective Experience for Memory Search

Xinyuan Wang, Wenyu Mao, Junkang Wu, Xiang Wang, Xiangnan He

发表机构 * University of Science and Technology of China（中国科学技术大学）

AI总结 R²-Mem 是一种用于记忆搜索系统的反思经验框架，旨在解决现有深度搜索代理重复历史错误行为的问题。该方法通过离线阶段的评分器和自反思学习器提取高质量和低质量搜索轨迹中的经验，并在在线推理阶段利用这些经验指导未来的搜索行为，从而提升搜索效果与效率。实验表明，R²-Mem 在多个指标上均优于现有方法，显著提高了搜索性能并减少了资源消耗。

2605.13485 2026-05-14 cs.LG cs.CL cs.IT math.IT

Effective Context in Transformers: An Analysis of Fragmentation and Tokenization

Amirmehdi Jafari Fesharaki, Mohammadamin Rami, Aslan Tchamkerten

发表机构 * Department of Communications and Electronics（通讯与电子系）； Institut Polytechnique de Paris（巴黎高等理工学院）

AI总结本文研究了Transformer模型中不同表示方式（如字节、字符和子词）对有限上下文预测性能的影响。作者通过马尔可夫源分析，发现将符号分解为更小单元（碎片化）可能降低预测性能，即使扩大了上下文窗口，这一现象具有表示本身的固有性质。另一方面，使用贪心分词方法（如BPE）可以使得较短的分词窗口等效于更长的原始上下文窗口，并给出了相应的理论保证。研究为理解Transformer中表示选择对模型性能的影响提供了信息论框架。

Comments 30 pages, 9 figures. Preprint

2605.13484 2026-05-14 cs.LG cs.AI stat.ME

Discovery of Hidden Miscalibration Regimes

Katarzyna Kobalczyk, Mihaela van der Schaar

发表机构 * University of Cambridge（剑桥大学）

AI总结本文研究了模型在不同输入上的校准偏差问题，指出传统方法仅基于置信度评估校准，可能掩盖局部校准失败的现象。为此，作者提出了一种无需预设数据切片的隐式校准偏差发现方法，通过学习输入空间的校准感知表示，并利用核平滑估计局部校准偏差。实验表明，该方法能有效揭示大语言模型在不同输入下的校准异质性，并在系统性偏差区域显著提升校准效果。

2605.13481 2026-05-14 cs.CL

PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

Mikhail Menschikov, Matvey Iskornev, Alexander Kharitonov, Alina Bogdanova, Mikhail Belkin, Ekaterina Lisitsyna, Artyom Sosedka, Victoria Dochkina, Ruslan Kostoev, Ilia Perepechkin, Evgeny Burnaev

发表机构 * Huawei, Moscow, Russia（华为，莫斯科，俄罗斯）

AI总结本文提出了一种名为 PersonalAI 2.0（PAI-2）的新框架，旨在通过整合外部知识图谱增强基于大语言模型（LLM）的系统。该方法引入了动态多阶段查询处理流程，能够根据提取的实体、匹配的图节点和生成的线索查询进行自适应的迭代信息搜索，有效提升了生成答案的事实准确性。实验表明，PAI-2 在多个基准数据集上相比现有方法具有更高的精度和更低的幻觉率，并在特定任务中实现了显著的性能提升。

2605.13476 2026-05-14 cs.CV

Neural Video Compression with Domain Transfer

Tiange Zhang, Rongqun Lin, Xiandong Meng, Haofeng Wang, Xing Tian, Qi Zhang, Siwei Ma

发表机构 * Shenzhen Graduate School, Peking University, Shenzhen, China（北京大学深圳研究生院，深圳，中国）； Pengcheng Laboratory, Shenzhen, China（鹏城实验室，深圳，中国）； School of Computer Science, Peking University, Beijing, China（北京大学计算机学院，北京，中国）

AI总结本文研究了神经视频编码中的领域迁移问题，旨在解决训练数据与测试数据之间分布差异导致的性能下降问题。提出了一种名为DCVC-DT的增强框架，通过轻量级的在线领域迁移机制，在推理过程中动态调整编码的潜在表示，从而有效缩小领域差距，无需修改编码器或解码器参数。同时，引入了帧级别的动态率失真调整方案，提升压缩效率与重建质量。实验表明，该方法在保持视频质量的同时，相比基线模型实现了更高的比特率节省，并增强了对未知测试数据的泛化能力。

Comments Accepted to ISCAS 2026 as an oral paper

2605.13473 2026-05-14 cs.LG cs.CL

OSDN: Improving Delta Rule with Provable Online Preconditioning in Linear Attention

Chenyu Zhou, Hongpei Li, Yuerou Liu, Jianghao Lin, Dongdong Ge, Yinyu Ye

发表机构 * Shanghai Jiao Tong University（上海交通大学）； Northwestern University（西北大学）； Huazhong University of Science and Technology（华中科技大学）； Stanford University（斯坦福大学）

AI总结本文提出了一种名为OSDN的新方法，旨在改进线性注意力机制中的Delta规则，以提升模型在上下文关联记忆任务中的表现。OSDN通过引入在线预条件器，对Delta规则中的步长进行特征级的自适应调整，从而更准确地反映目标函数的曲率特性。该方法在保持DeltaNet硬件友好并行计算优势的同时，实现了理论上的超几何收敛，并在大规模实验中显著提升了模型的回忆性能和泛化能力。

2605.13470 2026-05-14 cs.LG

Twincher: Bijective Representation Learning for Robust Inversion of Continuous Systems

Arkady Gonoskov

发表机构 * Department of Physics, University of Gothenburg（哥德堡大学物理系）

AI总结本文提出了一种名为 Twincher 的新型架构，旨在通过学习与输入变量一一对应的鲁棒表示，实现对连续前向系统的稳定逆推。该方法基于结构化微分同胚变换堆叠和定制的对抗训练策略，能够在噪声或模型偏差存在的情况下保持表示的稳定性。实验表明，Twincher 在合成系统中能高效学习双射表示，相比传统逆模型方法，具有更高的数据效率和鲁棒性，展示了其在机器人、视觉和物理人工智能中的应用潜力。

2605.13467 2026-05-14 cs.CL

PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning

Hee Suk Yoon, Eunseop Yoon, Ji Woo Hong, SooHwan Eom, Gwanhyeong Koo, Mark Hasegawa-Johnson, Qi Dai, Chong Luo, Chang D. Yoo

发表机构 * Korea Advanced Institute of Science and Technology (KAIST)（韩国高级科学技术研究院）； University of Illinois at Urbana-Champaign (UIUC)（伊利诺伊大学厄巴纳-香槟分校）； Microsoft Research Asia (MSRA)（微软亚洲研究院）

AI总结该研究针对视觉-语言推理任务中传统强化学习奖励信号不足的问题，提出了一种感知分解置信奖励（PDCR）框架。通过解耦视觉与语言步骤，PDCR引入视觉依赖度评分并结合聚类算法分离感知与推理过程，从而在每个子任务内进行归一化奖励计算，有效解决了全局奖励导致的信号失真问题。实验表明，PDCR在多个视觉-语言推理基准上优于传统全局奖励和稀疏奖励方法。

Comments CVPR 2026

2605.13465 2026-05-14 cs.CV

Z-Order Transformer for Feed-Forward Gaussian Splatting

Can Wang, Lei Liu, Wei Jiang, Dong Xu

发表机构 * The University of Hong Kong（香港大学）； Futurewei Technologies Inc（未来科技公司）

AI总结本文提出了一种基于Transformer的前馈高斯点绘（Gaussian Splatting）方法，旨在解决传统3D高斯点绘在实时性方面的不足。通过引入Z-order策略将无序的高斯点组织成空间连贯的序列，并结合稀疏注意力机制，有效捕捉高斯点之间的空间与语义关系，从而在单次前向传播中高效建模上下文、压缩高斯点数量并预测其属性。实验表明，该方法在保证渲染质量的同时显著提升了生成新视角图像的速度。

Comments Accept by CVPR 2026, Oral

2605.13464 2026-05-14 cs.LG

A Unified Three-Stage Machine Learning Framework for Diabetes Detection, Subtype Discrimination, and Cognitive-Metabolic Hypothesis Testing

Vishal Pandey, Ruzina Haque Laskar, Rishav Tewari

发表机构 * Independent Researcher（独立研究者）； B Center for Development of Telematics（B电信发展中心）； Asansol Engineering College（阿萨尼尔工程学院）

AI总结该研究提出了一种统一的三阶段机器学习框架，用于糖尿病检测、亚型区分及代谢-认知关联分析。第一阶段通过多种分类器对糖尿病进行预测，并识别出关键生物标志物；第二阶段利用聚类方法对确诊患者进行亚型划分；第三阶段基于认知数据揭示血糖控制与认知功能之间的显著关联。该框架为糖尿病的可重复分析和亚型研究提供了统计严谨且可解释的方法。

Comments 10 Pages

2605.13462 2026-05-14 cs.LG

Efficient Sensor Fusion for Gesture Recognition on Resource-Constrained Devices

Pietro Bartoli, Christian Veronesi, Tommaso Bondini, Andrea Giudici, Franco Zappa

发表机构 * EssilorLuxottica Smart Eyewear Lab（EssilorLuxottica 智能眼镜实验室）； Politecnico di Milano（米兰理工学院）

AI总结本文提出了一种轻量且保护隐私的手势识别系统，适用于资源受限的智能眼镜等可穿戴设备。该系统通过融合低分辨率的飞行时间（ToF）传感器和红外（IR）热成像传感器的数据，结合一种专为多控制器设计的分组卷积神经网络（CNN），实现了高效的多模态信息融合。实验表明，该方法在自定义数据集上取得了92.3%的高识别准确率和0.93的宏观F1分数，同时在功耗和计算延迟方面表现优异，适合用于边缘计算场景。

Comments The article is already accepted for IEEE Sensors Applications Symposium (IEEE SAS) 2026

2605.13457 2026-05-14 cs.CV

OP4KSR: One-Step Patch-Free 4K Super-Resolution with Periodic Artifact Suppression

Chengyan Deng, Pengbin Yu, Zhentao Chen, Wei Shen, Kai Zhang, Meng Li, Lunxi Yuan, Xue Zhou, Li Yu

发表机构 * School of Automation Engineering, University of Electronic Science and Technology of China（电子科技大学自动化工程学院）； OPPO AI Center, OPPO Inc.（OPPO人工智能中心）； School of Intelligence Science and Technology, Nanjing University（南京大学智能科学与技术学院）

AI总结本文提出了一种名为OP4KSR的一站式无块4K超分辨率方法，旨在解决基于扩散模型的现实场景图像超分辨率在直接生成4K图像时面临的显存限制问题。该方法基于强大的Flux架构，并结合极简压缩的F16 VAE，实现了在有限GPU资源下的高效推理，同时保持全局空间语义一致性。为了解决该方法引入的周期性伪影问题，作者提出了基于RoPE频率重缩放和自相关周期性损失的抑制策略，并构建了专门的训练数据集和三个基准测试，推动了4K超分辨率研究的发展。

2605.13452 2026-05-14 cs.RO cs.AI

CUBic: Coordinated Unified Bimanual Perception and Control Framework

Xingyu Wang, Pengxiang Ding, Jingkai Xu, Donglin Wang, Zhaoxin Fan

发表机构 * Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University（北京未来区块链与隐私计算高级创新中心，人工智能学院，北京航空航天大学）； Westlake University（西湖大学）； Zhejiang University（浙江大学）； Peking University（北京大学）

AI总结本文提出了一种名为CUBic的协调统一双臂感知与控制框架，旨在解决从单臂操作扩展到双臂操作时面临的感知独立性与手臂协调性之间的矛盾。该方法通过统一的感知建模，学习共享的标记化表示，使独立操作与协调交互自然地从结构中体现出来，而非依赖人工设计的耦合机制。实验表明，CUBic在RoboTwin基准测试中显著优于现有方法，在协调精度和任务成功率方面均取得明显提升。

2605.13451 2026-05-14 cs.CL

LongBEL: Long-Context and Document-Consistent Biomedical Entity Linking

Adam Remaki, Xavier Tannier, Christel Gérardin

发表机构 * Sorbonne Université, Inserm, Université Sorbonne Paris Nord, Limics（索邦大学、国家医学研究院、巴黎索邦大学北校区、Limics）； Service de médecine interne, Hôpital Tenon, Assistance Publique - Hôpitaux de Paris（内科服务，Tenon医院，巴黎公共医院）

AI总结本文提出 LongBEL，一种用于生物医学实体链接的文档级生成框架，旨在解决现有系统在处理同一文档中重复出现的概念时可能出现的不一致问题。LongBEL 通过结合全文上下文和先前预测的记忆信息，提升实体链接的一致性与准确性。实验表明，LongBEL 在多个生物医学数据集上优于基于句子的生成方法，尤其在概念重复出现的场景中表现突出。

Comments 9 pages, 2 figures

2605.13450 2026-05-14 cs.AI cs.CL cs.HC

Assessing the Creativity of Large Language Models: Testing, Limits, and New Frontiers

Samuel Schapiro, Alexi Gladstone, Jonah Black, Heng Ji

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结本文研究了如何有效评估大语言模型的创造力，针对创造性写作、发散性思维和科学构想三个领域，系统评估了现有创造力测试的有效性。研究发现，现有测试在预测模型创造力方面存在显著局限，尤其是对科学构想能力的预测效果不佳。为此，作者提出了一种新的测试方法——发散远程联想测试（DRAT），该方法首次在单一测试中同时评估聚合与发散性思维，并能有效预测科学构想能力，表现出良好的鲁棒性。

Comments 36 pages. Extended version of work under review

2605.13442 2026-05-14 cs.RO

Asymptotically Optimal Ergodic Coverage on Generalized Motion Fields

Christian Hughes, Yilang Liu, Yanis Lahrach, Julia Engdahl, Houston Warren, Darrick Lee, Fabio Ramos, Travis Miles, Ian Abraham

发表机构 * Yale University（耶鲁大学）； Rutgers University（罗格斯大学）； University of Edinburgh（爱丁堡大学）； University of Sydney（悉尼大学）

AI总结本文研究了在动态流场环境中实现渐近最优的遍历覆盖问题，针对传统方法在非静态环境中无法保证覆盖质量的问题，提出了一种基于流场适应的遍历覆盖方法。该方法引入最大均值差异（MMD）作为遍历性度量，并将其与环境动态相结合，以在非完整约束和开环控制条件下实现鲁棒的探索路径规划。实验验证了该方法在海洋探测、人群与牲畜运动追踪等多样化时空过程中的有效性，并在空中和腿式机器人平台上验证了其在非凸、流场受限环境中的可行性。

Comments 13 pages, 9 figures, 6 tables, Robotics: Science and Systems 2026

2605.13436 2026-05-14 cs.CL cs.LG

Pretraining Language Models with Subword Regularization: An Empirical Study of BPE Dropout in Low-Resource NLP

Ruan Visser, Trienko Grobler, Marcel Dunaiski

发表机构 * Department of Computer Science, Stellenbosch University（斯瓦茨堡大学计算机科学系）

AI总结本文研究了在低资源自然语言处理任务中，是否在预训练阶段应用BPE Dropout能提升下游任务表现。研究通过在多种语言的子集上训练单语和双语BERT模型，并在多个基准数据集上进行评估，发现同时在预训练和微调阶段使用随机分词能取得最佳效果，尤其在数据量较少时，预训练阶段引入BPE Dropout具有明显优势。实验还表明，预训练阶段的随机分词有助于模型更一致地接触形态对齐的分词方式，从而提升模型的表示能力。

Comments Comments: 12 pages, 8 figures, 5 tables

2605.13435 2026-05-14 cs.LG cs.AI

Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy

JaeHyeok Doo, Byeongguk Jeon, Seonghyeon Ye, Kimin Lee, Minjoon Seo

发表机构 * KAIST AI（韩国科学技术院人工智能实验室）

AI总结本文提出了一种名为 Q-Flow 的强化学习框架，旨在充分利用基于流模型的策略的高表达能力，同时解决其在价值最大化过程中的优化稳定性问题。该方法通过利用流模型的确定性动态，直接将终端轨迹价值传播到中间潜在状态，从而在无需展开数值求解器的情况下实现稳定策略优化。实验表明，Q-Flow 在离线学习任务中显著优于现有先进方法，并支持在同一框架下的稳定在线适应。

Comments 27 pages

2605.13431 2026-05-14 cs.SD

Text2Score: Generating Sheet Music From Textual Prompts

Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton

发表机构 * Queen Mary University of London（伦敦女王学院）； Singapore University of Technology and Design（新加坡科技设计大学）； Politecnico di Milano（米兰理工大学）； EmotionWave（情绪波）

AI总结本文提出 Text2Score，一个用于从自然语言提示生成乐谱的两阶段框架，旨在解决文本驱动符号音乐生成中数据稀缺和自动标注不可靠的问题。该方法通过直接从符号化 XML 数据中提取监督信号，绕过了传统文本-音乐对的噪声和稀疏性问题，分为规划阶段和执行阶段：规划阶段利用大语言模型生成结构化的乐谱计划，执行阶段则生成符合该计划的 ABC 符号乐谱。实验表明，Text2Score 在可玩性、可读性等多个评估维度上均优于现有方法，并开源了数据集、代码及评估工具。

Comments 8 pages including references, 1 figure

2605.13429 2026-05-14 cs.CL

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

Chong Li, Yingzhuo Deng, Wen Yang, Jiajun Zhang, Chengqing Zong

发表机构 * State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, CAS, Beijing, China（多模态人工智能系统国家重点实验室，自动化研究所，中国科学院，北京，中国）； School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China（中国科学院大学人工智能学院，北京，中国）

AI总结本文提出了一种名为 TokAlign++ 的方法，旨在通过学习更优的词元对齐词典来提升大语言模型的词汇适配性能。该方法将源语言和目标语言的词表视为两种不同语言，从单语词元表示中学习双语对齐词典，并据此重新排列模型参数以适应新词表，再通过逐步微调实现模型适配。实验表明，该方法在15种语言上显著提升了多语言文本压缩率，并在较少训练步数下恢复了原模型性能，同时有效支持了基于词元的模型蒸馏。

Comments Paper under review