arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.06900 2026-05-11 cs.DS cs.LG

Accelerated Relax-and-Round for Concave Coverage Problems

Matthew Fahrbach, Mehraneh Liaee, Morteza Zadimoghaddam

AI总结本文提出了一种加速的“松弛-取整”算法，用于解决广义的最大覆盖问题中的凹覆盖问题。该方法在原有框架基础上，采用投影加速梯度法替代线性规划松弛步骤，并结合专门的超单纯形取整方案，显著提升了算法效率与近似精度。实验表明，该算法在合成和现实图数据上均优于使用最新线性规划求解器的方法。

Comments 47 pages, 6 figures

2605.06894 2026-05-11 cs.CR cs.LG

McNdroid: A Longitudinal Multimodal Benchmark for Robust Drift Detection in Android Malware

Md Mahmuduzzaman Kamol, Jesus Lopez, Saeefa Rubaiyet Nowmi, Emilia Rivas, Md Ahsanul Haque, Edward Raff, Aritran Piplai, Mohammad Saidur Rahman

AI总结本文提出 McNdroid，一个涵盖2013至2025年（除2015年）的长期多模态Android恶意软件基准数据集，用于研究恶意软件检测中的概念漂移问题。该数据集为每个应用提供了静态特征、动态行为特征和函数调用图的三类对齐模态数据，并通过时间分割评估了传统机器学习和深度学习检测器在不同训练-测试时间间隔下的性能。实验表明，多模态融合在长期时间间隔中优于单一模态，且跨模态一致性随时间下降，揭示了漂移对特征空间和模态间关系的影响。

Comments 28 pages, 14 figures, 14 tables

2605.06884 2026-05-11 math.OC cs.LG

Muon with Nesterov Momentum: Heavy-Tailed Noise and (Randomized) Inexact Polar Decomposition

Sayantan Choudhury, Xiaoran Cheng, Martin Takáč, Sen Na, Mladen Kolar

AI总结本文研究了在存在重尾噪声的非凸矩阵优化问题中，如何有效利用带有Nesterov动量的Muon优化器进行求解。核心方法是在不精确极分解框架下，结合随机低秩分解技术，建立了收敛性理论，并分析了误差传播对优化过程的影响。研究的主要贡献包括提出了适用于重尾噪声的收敛速率分析，给出了无需先验知识的收敛保证，并通过数值实验验证了所提方法的有效性。

Comments 33 pages, 4 figures, 1 table

2605.06883 2026-05-11 stat.ML cs.LG

Kernel Selection is Model Selection: A Unified Complexity-Penalized Approach for MMD Two-Sample Tests

Yijin Ni, Xiaoming Huo

AI总结该论文研究了如何通过动态选择核函数来提升最大均值差异（MMD）两样本检验的统计功效。作者提出了一种统一的复杂度惩罚方法（CP-MMD），将核选择视为模型选择问题，并通过引入优化复杂度的惩罚项，使得在连续参数空间上可以直接进行无网格的核优化。该方法在保证第一类错误控制的同时，显著提升了检验能力，适用于包括带宽参数、多项式特征和深度网络在内的多种核类。

2605.06878 2026-05-11 cs.AR cs.CC cs.RO eess.IV

CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning

Sonu Kumar, Mukul Lokhande, Santosh Kumar Vishvakarma, Adam Teman

AI总结本文提出了一种名为CARMEN的深度学习推理引擎，该引擎基于CORDIC算法加速，支持多精度计算并具有资源高效的特点。其核心思想是通过动态调整CORDIC迭代深度来实现精度与计算效率之间的灵活切换，无需硬件修改即可在近似与精确模式之间转换。该架构结合了低资源消耗的CORDIC乘加单元和时分复用的多激活函数模块，实现了8/16位精度的灵活支持，并在28纳米CMOS工艺下实现了计算周期减少33%和每乘加单元功耗降低21%等显著性能提升。

Comments Under Review (VDAT 2026)

2605.06875 2026-05-11 cs.AR cs.AI cs.CV cs.NA eess.IV math.NA

EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration

Mukul Lokhande, Ratko Pilipovic, Omkar Kokane, Adam Teman, Santosh Kumar Vishvakarma

AI总结本文提出了一种名为EULER-ADAS的能效高且支持SIMD统一的对数Posit计算引擎，用于实现精度可配置的近似ADAS加速。该架构结合了有限范围Posit表示、分阶段自适应对数尾数乘法与位截断技术，以及支持多种Posit精度的SIMD共享累加路径，从而在不重复设计硬件的情况下实现多种精度操作。实验表明，该设计在FPGA和28纳米CMOS工艺中均表现出优异的能效和性能，适用于低功耗实时ADAS推理任务。

2605.06839 2026-05-11 cond-mat.mtrl-sci cs.AI

LLM-Guided Open Hypothesis Learning from Autonomous Scanning Probe Microscopy Experiments

Boris Slautin, Utkarsh Pratiush, Yu Liu, Kamyar Barakati, Sergei Kalinin

AI总结该研究提出了一种基于大语言模型的开放假设学习框架，用于自主扫描探针显微镜实验，旨在从实验数据中生成新的物理模型而非仅在固定假设空间内选择测量。研究结合符号回归与物理可解释性评估，通过稀疏测量直接生成候选关系式，并利用语言模型根据物理合理性、尺度行为和一致性进行排序。该方法在铁电畴壁运动的自主压电响应力显微镜实验中得到了验证，展示了从初始测量出发逐步演化出符合物理规律的电压-时间增长定律的能力，推动了自主显微技术从闭环优化向开放假设发现的转变。

Comments 21 pages, 6 figures, 1 table

2605.06833 2026-05-11 cs.CR cs.AI cs.NI

PAMPOS: Causal Transformer-based Trajectory Prediction for Attack-Agnostic Misbehavior Detection in V2X Networks

Konstantinos Kalogiannis, Ahmed Mohamed Hussain, Panos Papadimitratos

AI总结本文提出了一种基于因果变压器的轨迹预测方法PAMPOS，用于在车联网（V2X）网络中检测攻击无关的异常行为。该方法通过学习正常交通轨迹模式，无需攻击标签数据即可识别异常行为，利用顶部-K归一化异常评分机制定位具体运动特征的异常。实验表明，PAMPOS在多种攻击场景下表现出色，取得了高达0.98的AUC值和0.95的F1分数。

Comments Author's version; Accepted for presentation at the ACM Workshop on Wireless Security and Machine Learning (WiseML 2026)

2605.06820 2026-05-11 physics.med-ph cs.AI

Overcoming data scarcity through multi-center federated learning for organs-at-risk segmentation in pediatric upper abdominal radiotherapy

Mianyong Ding, Maximilian Knoll, Semi Harrabi, Martine van Grotel, Annemieke S. Littooij, Max van Noesel, Jens-Peter Schenk, Marry M. van den Heuvel-Eibrink, Geert O. Janssens, Matteo Maspero

AI总结该研究旨在解决儿科上腹部放射治疗中器官危及区域（OARs）分割模型因数据稀缺而性能不足的问题，提出了一种基于联邦学习（FL）的多中心协作方法。通过在两个欧洲医疗中心的本地数据上训练并共享模型参数，而非直接共享患者数据，该方法在保护隐私的前提下提升了模型的泛化能力。实验结果表明，联邦学习模型在跨中心测试中表现优于本地模型，显著提高了分割精度和鲁棒性，为儿科放射治疗的自动化轮廓绘制提供了可行方案。

详情

英文摘要

Deep learning-based organs/structures-at-risk(OARs) auto-contouring models can improve radiotherapy workflows, but models trained on adult data often underperform in pediatric patients. Developing robust pediatric-specific models is hindered by data scarcity and fragmentation across centers. Federated learning (FL) enables privacy-preserving collaborative training without the need for data sharing. We evaluated the feasibility and performance of FL for developing pediatric-specific OAR segmentation models across two European medical centers. Computed tomography (CT) images from pediatric patients from Utrecht and Heidelberg with a renal tumor or abdominal neuroblastoma were retrospectively collected and locally processed. An nnU-Net-based framework segmented 19 OARs using local and FL schemes. FL was implemented with secure weight exchange on a cloud storage across institutional firewalls. Performance was assessed using the Dice similarity coefficient (DSC), 95th percentile Hausdorff distance, and mean surface distance. Robustness to patient orientation, false-positive segmentation of surgically removed kidneys, and failure cases were identified. A total of 310 postoperative CTs from 272 patients (105 renal tumors, 167 neuroblastomas) were included. Local models performed well on their respective center data but showed significantly reduced cross-center performance for four to seven of the nine evaluated OARs (DSC). In contrast, the FL model matched local performance for at least seven of nine OARs and achieved the best cross-center results across three metrics, with DSC gains of 0.003-0.007 over local models. FL also maintained stable performance across patient orientations and reduced false-positive kidney segmentations. Real-world FL improves cross-center robustness of CT-based OAR segmentation models in pediatric upper abdominal tumors.

URL PDF HTML ☆

赞 0 踩 0

2605.06810 2026-05-11 cs.HC cs.CV

Enhancing Eye Movement Biometrics for User Authentication via Continuous Gaze Offset Score Fusion

Hashim Aziz, Mehedi Hasan Raju, Oleg V. Komogortsev

AI总结该研究探讨了如何通过融合连续注视偏移分数来增强基于眼动的生物特征识别性能。研究提出将连续注视偏移信息与现有生物特征相结合，并在两个公开数据集上评估了线性和非线性融合方法的效果。实验结果表明，融合方法能够提升认证性能，尤其在使用非线性融合时效果更显著，表明连续注视偏移可作为辅助信息在眼动追踪质量下降时提高系统鲁棒性。

Comments 10 Pages, 1 Figure, 1 Table, Submitted to IJCB 2026

2605.06762 2026-05-11 q-bio.GN cs.AI

A Linear-Transformer Hybrid for SNP-Based Genotype-to-Phenotype Prediction in Grapevine

Yibin Wang, Murukarthick Jayakodi, Silvas Kirubakaran, Ambika Chandra, Azlan Zahid

AI总结本文提出了一种结合线性模型与Transformer架构的混合方法LiT-G2P，用于基于SNP数据的葡萄基因型到表型预测。该方法通过整合加性遗传效应与非线性基因互作，提升了复杂性状在不同年份间的预测稳定性与准确性。实验结果表明，LiT-G2P在单年和跨年预测中均优于基准模型，尤其在叶毛密度和绒毛密度等性状上表现突出，并通过注意力机制提取关键SNP位点，为后续验证提供了可解释的候选标记。

Comments 15 pages, 4 Figures

2605.06749 2026-05-11 stat.ME cs.AI

A Statistical Framework for Algorithmic Collective Action with Multiple Collectives

Claudio Battiloro, Pietro Greiner, Dario Rancati, Bret Nestor, Oumaima Amezgar, Francesca Dominici

AI总结随着学习系统在日常决策中扮演越来越重要的角色，算法集体行动（ACA）作为一种用户协调修改共享数据以引导模型行为的方式，为监管政策和企业模型设计提供了补充。现有研究多聚焦于单一集体的场景，而现实中多个集体往往在共享总体目标的同时，因规模、策略和行动目标的不同而分散存在。本文首次提出一个多集体算法集体行动的统计框架，研究多个集体如何共同影响分类器的行为，并提供了基于集体规模和目标对齐程度的定量统计界限，且允许每个集体仅需部分了解其他集体的信息即可计算这些界限。通过模拟智慧城市中气候适应干预的场景，验证了该框架的有效性。

Comments 27 pages, 16 figures

2605.06737 2026-05-11 cs.SE cs.AI

A Self-Healing Framework for Reliable LLM-Based Autonomous Agents

Cheonsu Jeong, Younggun Shin

AI总结本文提出了一种面向基于大语言模型（LLM）的自主代理的可靠性自愈框架，旨在解决其在复杂系统中面临的幻觉、执行错误和推理不一致等不可预测故障问题。该框架整合了故障检测、可靠性评估与自动恢复机制，通过定义故障类型分类、构建定量可靠性模型，并设计基于执行模式和输出一致性的检测方法，结合自适应重规划和纠正提示策略实现动态恢复。实验表明，该方法显著提高了任务成功率，降低了故障传播，增强了系统鲁棒性，并通过整合代理内部推理与外部执行结果的监控系统，为提升自主系统的稳定性提供了新思路。

Comments 13 pages, 3 figures,1 table

2605.06731 2026-05-11 cs.CR cs.CL cs.LG

When Routine Chats Turn Toxic: Unintended Long-Term State Poisoning in Personalized Agents

Xiaoyu Xu, Minxin Du, Qipeng Xie, Haobin Ke, Qingqing Ye, Haibo Hu

AI总结个性化大语言模型代理在跨会话中保持持久状态以支持长期协作，但这种持久性引入了一种隐蔽而关键的安全漏洞：常规的用户代理交互可能逐渐改变代理的长期状态，削弱未来确认边界、扩大工具使用默认行为并随时间推移增强自主性。本文将此风险形式化为“无意的长期状态中毒”，并构建了包含350种场景的双语基准ULSPB用于系统研究，同时定义了衡量危害程度的“危害分数”（HS）。实验表明，仅通过常规对话即可显著污染长期状态，而提出的轻量防御机制StateGuard能有效降低危害分数，提升安全性。

Comments 23 pages

2605.06728 2026-05-11 q-bio.GN cs.AI q-bio.CB

OmicsLM: A Multimodal Large Language Model for Multi-Sample Omics Reasoning

Maciej Sypetkowski, Joanna Krawczyk, Łukasz Smoliński, Remigiusz Kinas, Przemysław Pietrzak, Tomasz Jetka, Rafał Powalski

AI总结 OmicsLM 是一个用于多样本组学推理的多模态大语言模型，旨在连接定量组学数据与自然语言生物任务。该模型通过将转录组数据表示为紧凑的连续向量，在统一的上下文中处理自然语言指令、基因名称和多个样本数据，从而实现语言引导下的多样本推理。研究还引入了 GEO-OmicsQA 基准，用于评估模型在真实表达谱上的多样本生物问答能力，并表明 OmicsLM 在语言引导的生物推理任务中优于现有专门模型和通用大语言模型。

Comments 13 pages (main text), 14 pages (appendix), 1 figure, 10 tables

2605.06718 2026-05-11 cs.CR cs.LG

TUANDROMD-X: Advanced Entropy and Visual Analytics Dataset for Enhanced Malware Detection and Classification

Parthajit Borah, Upasana Sarmah, D. K. Bhattacharyya, J. K. Kalita

AI总结随着恶意软件攻击日益复杂，传统基于签名的防御手段已难以应对。本文提出了一种名为 TUANDROMD-X 的多类别恶意软件数据集，该数据集基于静态分析提取了每个样本的视觉和熵值特征，能够有效区分恶意软件与良性软件。该数据集降低了特征工程和动态分析的开销，为研究人员提供了高质量的数据资源，有助于设计更高效、更精准的恶意软件检测系统。

2605.06717 2026-05-11 cs.SE cs.AI

Agentic Coding Needs Proactivity, Not Just Autonomy

Nghi D. Q. Bui, Georgios Evangelopoulos

AI总结本文探讨了新一代智能编程代理（coding agents）应具备的“主动性”（proactivity）特性，指出其不仅应具备自主性，还需在软件开发过程中主动识别变化、跨工具整合信息并做出适时干预。研究提出了主动性行为的三级分类（反应式、定时式和情境感知式），并基于混合主动交互原则，提出以洞察决策质量、上下文关联度和学习提升度为核心的评估指标，为衡量代理行为的实用性提供了理论框架和评价方法。

Comments Position Paper

2605.06713 2026-05-11 cs.CR cs.AI cs.HC

Agentic AI and the Industrialization of Cyber Offense: Forecast, Consequences, and Defensive Priorities for Enterprises and the Mittelstand

Christopher Koch

AI总结本文探讨了智能体AI在网络攻击中的应用及其对企业和中型企业的潜在威胁。研究指出，智能体AI通过降低侦察、钓鱼、漏洞利用等攻击环节的成本，显著压缩了攻击周期，改变了网络攻击的经济格局。文章提出了三通道智能体网络风险模型和智能体攻击压缩模型，并基于2026年Linux内核复制失败事件进行案例分析，最终为大型企业和德国及欧洲中小企业制定了优先防御路线图。

Comments 7 pages

2605.06710 2026-05-11 cs.IT cs.LG math.IT math.ST stat.TH

Information-theoretic Limits of Learning and Estimation

Abbas El Gamal, Maxim Raginsky

AI总结本文介绍了信息论在学习与估计问题中的基本极限，探讨了无论计算能力如何，任何学习或估计算法所能达到的性能边界。文章从集中不等式、度量熵、Rademacher复杂度等工具入手，推导了泛化误差的上界，并结合互信息与相对熵分析了学习理论框架。随后，通过Fano不等式建立了最小最大估计风险的下界，为理解学习与估计的理论极限提供了重要分析工具。

2605.06707 2026-05-11 cs.SE cs.AI

The Single-File Test: A Longitudinal Public-Interface Evaluation of First-Output LLM Web Generation with Social Reach Tracking

Diego Cabezas Palacios

AI总结本文通过八周的观察实验，对比了四种大型语言模型（GPT、Gemini、Grok 和 Claude）在固定公共接口协议下生成 HTML 页面的表现，评估指标包括功能正确性、界面质量和提示遵循度，并将结果通过社交媒体平台进行传播测试。研究发现，Claude 在整体表现上最为稳定且优异，而推理时间与生成质量无显著关联。此外，模型家族对 HTML 生成的冗余程度影响较大，而预发布技术与音频变量无法有效预测其在 Twitter 上的传播效果。

Comments 23 pages, 3 figures, 5 tables

详情

英文摘要

This paper presents an eight-week observational comparison of 68 single-file HTML generations collected across 17 public experiments in the "HTML AI Battle" project between December 10, 2025 and February 4, 2026. Four reasoning model families, GPT, Gemini, Grok, and Claude, were compared under a fixed public-interface protocol with no custom instructions, no personality tuning, and no repair prompts. Each output was evaluated from a rendered browser video using human scores and a Gemini LLM-as-a-judge layer for prompt adherence, functional correctness, and UI quality, then packaged into a standardized social-media protocol spanning X (Twitter), TikTok, and YouTube. The tracker was also used for two supervised predictive analyses: an experiment-level model for 24-hour X impressions and a generation-level model for HTML verbosity. Under this protocol, Claude was the strongest and most consistent family, leading mean performance and winning 9/17 prompts under the primary human weighted score. Longer measured reasoning time was not associated with higher quality overall. Gemini as a judge was significantly more lenient than the human evaluator on functional correctness and overall performance, while stable self-favoring bias remained unresolved. The exploratory X-impressions model remained weak under post-screen cross-validation (MAE = 46,874, R^2 = -0.377), whereas the HTML-lines model performed better, with a model-family-only baseline outperforming prompt-aware alternatives (MAE = 135.2, R^2 = 0.576). Overall, selected pre-publication technical/audio variables were not sufficient to predict 24-hour X reach, while code verbosity was driven much more by model family than by prompt wording. The comparisons remain observational and are limited by public-interface drift, access-path differences, and one primary human scorer.

URL PDF HTML ☆

赞 0 踩 0

2605.06699 2026-05-11 eess.IV cs.AI cs.CV cs.LG

Multimodal synthesis of MRI and tabular data with diffusion in a joint latent space via cross-attention

Daniel Mensing, Jan Kapar, Jochen G. Hirsch, Matthias Günther, Horst Hahn, Marvin N. Wright

AI总结本文提出了一种基于交叉注意力机制的多模态潜在扩散模型，能够在共享的潜在空间中联合生成磁共振成像（MRI）和表格临床数据，实现了两种模态的协同表征学习。该模型通过变分自编码器融合两种模态数据，并利用扩散生成方法进行合成，分别使用MRI和表格数据的解码器进行重建。实验表明，该方法在生成解剖结构合理且与表格属性一致的MRI图像方面表现优异，并在多项定量指标上优于现有方法，为医疗领域中生成一致的多模态患者数据提供了可行方案。

详情

DOI: 10.1117/12.3086603
Journal ref: Proc. SPIE 13925, Medical Imaging 2026: Image Processing, 139252D (April 03, 2026)

英文摘要

We propose a multimodal latent diffusion model that jointly synthesizes volumetric magnetic resonance imaging (MRI) and tabular clinical data within a shared latent space via cross-attention. This approach enables coherent joint representation learning of MRI and tabular modalities for generative modeling. Our model utilizes a variational autoencoder to fuse the two modalities before diffusion-based synthesis, allowing modality-appropriate reconstruction with separate decoders for MRI and tabular data. We evaluated the framework on data from the German National Cohort (NAKO Gesundheitsstudie), comprising over 10,000 participants with MRI scans and clinical tabular features such as age, sex, body measurements, and ethnicity. The generated MRI volumes exhibited anatomical plausibility and body composition consistent with the synthesized tabular attributes. Quantitative evaluation using Fréchet distance and precision-recall metrics confirmed high-fidelity image generation. In the tabular modality, our model outperformed CTGAN across standard evaluation metrics and achieved results comparable to TVAE, demonstrating competitive performance relative to established unimodal baselines. This work is, to our knowledge, the first to demonstrate the feasibility of jointly modeling MRI and mixed-type tabular data in a single latent diffusion framework, offering a proof-of-concept for generating coherent synthetic multimodal patient data and aligning with the broader goal of developing digital twins in healthcare.

URL PDF HTML ☆

赞 0 踩 0

2605.06055 2026-05-11 cs.DC cs.LG

Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend

Tianlun Hu, Tiancheng Hu, Shengsheng Litang, Sheng Wang, Xiaoming Bao, Yuxing Li, Wei Wang, Zhongzhe Hu, Lijun Li, Hongwei Sun, Jingbin Zhou

AI总结该研究针对混合专家（MoE）推理中的通信瓶颈问题，提出了一种无需中继缓冲的通信设计，旨在提升在昇腾平台上的推理效率。通过利用全局共享的高带宽内存和对称内存分配，该方法直接将数据放置到目标专家窗口并从远程专家窗口读取，减少了中间中继和重排序缓冲的使用，仅保留轻量级的控制状态。实验表明，该方法在预填充和解码阶段均有效降低了通信延迟，提升了首 token 响应时间并保持了良好的输出 token 效率。

2605.05995 2026-05-11 cs.CR cs.AI cs.CL

Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks

Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao

AI总结大型语言模型的安全对齐仍易受到有害微调（HFT）的攻击。现有防御方法通过限制参数、梯度或内部表示来应对，但在持续HFT下容易被绕过。本文提出了一种新的防御方法——安全瓶颈正则化（SBR），通过将防御重点转移到解码层这一几何瓶颈，将有害查询的最终隐藏状态锚定到安全对齐模型的状态，从而在持续HFT下仍能保持安全响应。实验表明，仅使用一个安全锚点即可将有害评分降至低于10，同时保持对良性任务的良好性能。

Comments Accepted to ICML 2026

2605.05703 2026-05-11 cs.MA cs.AI cs.LG

Active Learning for Communication Structure Optimization in LLM-Based Multi-Agent Systems

Huchen Yang, Xinghao Dong, Dan Negrut, Jin-Long Wu

AI总结本文研究了基于大语言模型的多智能体系统中通信结构优化的问题，旨在在有限训练资源下提升系统性能并减少计算开销。为解决现有方法依赖随机任务采样导致优化不稳定的问题，提出了一种基于信息论的集成任务选择框架，通过估计任务对图参数分布的影响来选择最具信息量的任务，并结合嵌入式代表性采样和代理模型加速优化过程。实验表明，该方法在正常和对抗环境下均能有效提升通信结构优化的效果。

2605.05340 2026-05-11 cs.CR cs.AI

How Far Are VLMs from Privacy Awareness in the Physical World? An Empirical Study

Junran Wang, Xinjie Shen, Zehao Jin, Pan Li

AI总结随着视觉语言模型（VLMs）越来越多地用于具身代理，评估它们在物理环境中的隐私意识变得至关重要。本文提出了一种基于Unity的交互式视听评估框架ImmersedPrivacy，用于模拟真实物理场景，从三个层次评估模型在复杂场景中识别隐私物品、适应社交情境变化以及处理隐私约束与指令冲突的能力。实验表明，当前最先进的12个模型在感知复杂性和社交情境变化面前表现出显著缺陷，揭示了VLMs在物理世界中仍存在感知脆弱性和行为决策不足的问题。

2605.04615 2026-05-11 cs.SE cs.AI

Beyond Retrieval: A Multitask Benchmark and Model for Code Search

Siqiao Xue, Zihan Liao, Jin Qin, Ziyin Zhang, Yixiang Mu, Fan Zhou, Hang Yu

AI总结本文提出了一种名为CoREB的多任务代码搜索基准测试和重排序模型，旨在超越传统的检索阶段，覆盖完整的代码搜索流程。该基准基于反事实重写的问题构建，包含五种编程语言的数据，并提供了分级的相关性判断。实验表明，专门针对代码的嵌入模型在代码到代码检索中表现优异，但无单一模型能在所有任务中全面胜出，而本文提出的CoREB-Reranker在三个任务中均取得稳定提升。

Comments project site: https://hq-bench.github.io/coreb-page/

2604.18972 2026-05-11 stat.ML cs.LG math.OC

Beyond Bellman: High-Order Generator Regression for Continuous-Time Policy Evaluation

Yaowei Zheng, Richong Zhang, Shenxi Wu, Shirui Bian, Haosong Zhang, Li Zeng, Xingjian Ma, Yichi Zhang

AI总结本文研究在时间非齐次动力学下，如何从离散闭环轨迹进行有限时间连续时间策略评估问题。传统Bellman方法仅具有一阶精度，本文提出通过多步转移估计时间依赖的生成器，并结合矩匹配系数消除低阶截断误差，从而实现更高阶的回归估计。理论分析给出了误差分解及适用条件，实验表明该方法在多种基准测试中优于Bellman基线，验证了高阶生成器回归在连续时间策略评估中的有效性与稳定性。

Comments The authors are withdrawing this paper due to an unresolved dispute concerning authorship and the attribution of intellectual contributions

2604.15533 2026-05-11 cs.PL cs.LG cs.LO cs.SE

Verification Modulo Tested Library Contracts

Abhishek Uppar, Omar Muhammad, Sumanth Prabhu, Deepak D'Souza, Madhusudan P, Adithya Murali

AI总结本文研究如何通过已测试的库契约来进行验证，旨在自动化验证使用复杂库的客户端程序。核心方法是合成适用于客户端程序的模块化契约，并通过测试引擎验证这些契约的正确性，同时引入了一种新的上下文契约形式，使其更易推断。作者提出了一种基于反例引导的学习框架，结合约束求解器和测试引擎进行契约和归纳不变量的合成，并在工具DUALIS中实现，展示了其在处理调用大型库的客户端程序时的有效性。

Comments Removed LaTeX formatting from abstract text

2604.15439 2026-05-11 stat.ML cs.LG math.PR

One-Shot Generative Flows: Existence and Obstructions

Panos Tsimpos, Daniel Sharp, Youssef Marzouk

AI总结本文研究了生成模型中的动态测度传输问题，重点探讨了通过积分速度场将源分布 $P_0$ 转换为目标分布 $P_1$ 的传输映射。研究核心在于判断何时该过程能产生“直线流”，即点加速度为零、可被任意一阶方法精确积分的流动。文章通过偏微分方程刻画了直线流的特征，并证明了在端点独立条件下，直线流存在与否存在明显二分现象：一方面，对任意高斯端点可构造显式直线流；另一方面，对于具有足够分离模态的目标分布，直线流则根本不存在。这些结果揭示了生成流结构存在的条件与限制。

2604.06738 2026-05-11 cs.GT cs.LG

Beyond Pessimism: Offline Learning in KL-regularized Games

Yuheng Zhang, Claire Chen, Nan Jiang

AI总结本文研究了在KL正则化两人零和博弈中的离线学习问题，通过KL正则化将策略优化与固定参考策略对齐。不同于以往依赖悲观价值估计的方法，作者提出了一种无需悲观假设的新算法与分析框架，利用KL正则化最佳响应的平滑性以及纳什均衡的稳定性性质，首次实现了对KL正则化博弈的无悲观离线学习保证，并获得了更快的$\widetilde{\mathcal{O}}(1/n)$样本复杂度。此外，作者还设计了一种高效的自博弈策略优化算法，通过迭代更新策略替代精确均衡计算，保持了与原方法相当的统计保证。