arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.14174 2026-05-15 cs.RO

Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation

Qisong He, Xinmiao Huang, Jinwei Hu, Zhuoyun Li, Yi Dong, Changshun Wu, Xiaowei Huang

AI总结该研究针对移动机器人在复杂环境中安全导航的问题，提出了一种结合条件风险价值（CVaR）约束优化与后训练可达性验证的强化学习框架。通过在离策略TD3算法中引入CVaR约束，使策略对高风险尾部事件更加敏感，从而提升安全性；训练后利用泰勒模型分析计算动作可达集，量化策略在不同状态下的安全余量。实验表明，该方法在多个导航场景中取得了最高的安全验证率，并揭示了传统平均成本指标可能遗漏的风险。

2605.14171 2026-05-15 cs.LG cs.NI

CSI-JEPA: Towards Foundation Representations for Ubiquitous Sensing with Minimal Supervision

Xuanhao Luo, Zhizhen Li, Yuchen Liu

AI总结本文提出了一种名为CSI-JEPA的自监督学习框架，旨在通过最小的监督实现通用的Wi-Fi感知表示学习。该方法通过预测被遮蔽信道区域的潜在特征，从未标记的CSI数据中学习可复用的时频表示，并引入了基于信道变化特性的遮蔽策略以提升表示能力。实验表明，CSI-JEPA在多个实际场景的感知任务中优于现有监督方法，显著提升了性能并减少了对标注数据的依赖。

2605.14169 2026-05-15 cs.CL

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

Letian Peng, Ziche Liu, Yiming Huang, Longfei Yun, Kun Zhou, Yupeng Hou, Jingbo Shang

AI总结本文提出了一种名为BOOKMARKS的高效主动故事线记忆框架，用于角色扮演代理（RPA），以解决现有方法在长期一致性维护中因信息压缩而丢失关键细节的问题。该方法通过主动初始化和更新与任务相关的“书签”来记录故事中的关键问题与答案，从而在保证任务细节的同时减少重复计算。实验表明，BOOKMARKS在多个角色和任务上显著优于传统记忆方法，验证了其在角色扮演场景中的有效性。

2605.14168 2026-05-15 cs.LG cs.DS stat.ML

Finite Sample Bounds for Learning with Score Matching

Devin Smedira, Abhijith Jayakumar, Sidhant Misra, Marc Vuffray, Andrey Y. Lokhov

AI总结本文研究了在有限样本条件下，使用得分匹配方法学习连续指数族分布的统计学习问题。作者提供了非渐近的样本复杂度分析，揭示了模型维数的多项式依赖关系，这是该领域首个此类结果。该工作填补了得分匹配理论分析的空白，为高维统计学习提供了重要的理论保证。

Comments 22 pages

2605.14167 2026-05-15 cs.AI cs.CY

The Evaluation Trap: Benchmark Design as Theoretical Commitment

Theodore J Kalaitzidis

AI总结该论文探讨了AI基准测试中隐含的理论假设如何影响对能力评估的定义与进展方向，指出当这些假设未经审视时，基准测试会固化主流范式并限制对能力的真正理解。文章提出了一种名为“Epistematics”的方法论，用于从技术能力声明中直接推导评估标准，并检验基准测试是否能区分真实能力与表面行为。其核心贡献在于提供了一套元评估框架，包括评估流程、失败模式分类及基准设计准则，以提升评估与目标能力之间的一致性。

Comments 13 pages

2605.14164 2026-05-15 cs.AI

Unsteady Metrics and Benchmarking Cultures of AI Model Builders

Stefan Baack, Christo Buschek, Maty Bohacek

AI总结该研究探讨了基础模型和生成式AI模型构建者在评估模型能力时所依赖的基准测试文化，发现其主要依据已从学术论文转向公司发布的新闻稿和博客，这些内容成为定义当前技术水平的重要依据。研究通过构建并开源Benchmarking-Cultures-25数据集，分析了2025年11家主要AI公司发布的139个模型中所强调的231个基准，揭示了当前评估体系碎片化、跨模型可比性低的问题，并提出统一分类框架以解析不同模型构建者对基准能力的异质化描述。

详情

英文摘要

The primary way to establish and compare competencies in foundation and generative AI models has shifted from peer-reviewed literature to press releases and company blog posts, where model builders highlight results on selected benchmarks. These artifacts now largely define the state of the art for researchers and the public. Despite their prominence, which benchmarks model builders choose to highlight, and what they communicate through this selection, is underexamined. To investigate, we introduce and open-source Benchmarking-Cultures-25, a dataset of 231 benchmarks highlighted across 139 model releases in 2025 from 11 major AI builders, alongside an interactive tool to explore the data. Our analysis reveals a fragmented evaluation landscape with limited cross-model comparability: 63.2% of highlighted benchmarks are used by a single builder, and 38.5% appear in just one release. Few achieve widespread use (e.g., GPQA Diamond, LiveCodeBench, AIME 2025). Moreover, benchmarks are attributed different competencies by different builders, depending on their narrative. To disentangle these conflicting presentations, we develop a unified taxonomy mapping diverging terminology to a shared framework of measured signals based on what benchmark authors claim to measure. "General knowledge application" is the second most popular, yet vaguely defined, category. Qualitative analysis shows many such benchmarks deemphasize construct validity, instead framing results as indicators of progress toward AGI. Their authors claim to measure knowledge or reasoning broadly, yet mostly evaluate STEM subjects (especially math). We argue that highlighted benchmarks function less as standardized measurement tools and more as flexible narrative devices prioritizing market positioning over scientific evaluation. Data: https://hf.co/datasets/matybohacek/benchmarking-cultures-25; tool: https://bench-cultures.net.

URL PDF HTML ☆

赞 0 踩 0

2605.14163 2026-05-15 cs.AI

Agentic Systems as Boosting Weak Reasoning Models

Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti

AI总结本文研究如何通过组合多个弱推理模型的输出，达到强模型的性能。核心方法是引入验证者支持的委员会搜索机制，在推理时通过提案、批评和比较模块协同工作，提升整体推理能力。研究证明，仅靠增加模型数量不足以提升性能，还需结合局部正确性信号，如执行、类型检查等，以确保选择的有效性。实验表明，通过合理设计的机制，弱模型组合可达到与强模型相当的性能，主要挑战在于如何从提案中有效筛选出正确解。

2605.14156 2026-05-15 cs.LG

Uncovering Trajectory and Topological Signatures in Multimodal Pediatric Sleep Embeddings

Scott Ye, Harlin Lee

AI总结该研究探讨了多模态掩码自编码器在儿科睡眠数据分析中的潜在诊断信息，通过结合拓扑特征、几何结构和电子健康记录（EHR）来增强嵌入表示。研究发现，融合这些额外信息后，线性模型和多层感知机在睡眠障碍预测任务中表现出更好的性能与可解释性，尤其在极端类别不平衡情况下，融合模型显著提升了预测的校准性和鲁棒性。

Comments Accepted to ML4H 2025, 20 pages, 6 figures

2605.14152 2026-05-15 cs.CL cs.AI cs.CR cs.CY

ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety

Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

AI总结本文提出ROK-FORTRESS，一个用于评估大型语言模型在国家安全与公共安全领域风险的双语基准，聚焦于英韩语言对及美韩地缘政治背景下的交互影响。通过构建“转译矩阵”，该方法分离语言和地缘政治因素，系统评估模型在不同语言和实体背景下的安全响应行为。研究发现，韩国语言和地缘政治背景的结合对模型安全行为有显著影响，且不同模型对此的反应存在差异，表明传统仅依赖翻译的评估方式可能低估了语言与地缘政治交互带来的风险。

Comments 16 pages main body + appendix (63 total), 5 main figures, 4 main tables; dataset at https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public

2605.14147 2026-05-15 cs.LG

A Systematic Evaluation of Imbalance Handling Methods in Biomedical Binary Classification

Jiandong Chen, Lingjie Su, Le Peng, Yash Travadi, Rui Zhang, Ju Sun

AI总结本研究系统评估了常用不平衡数据处理方法在生物医学二分类任务中的影响，探讨了模型复杂度与数据模态之间的相互作用。通过在三种典型生物医学数据集上测试多种处理方法，发现简单模型如逻辑回归对不平衡处理方法不敏感，而复杂模型如深度神经网络在使用重采样或权重调整方法时性能显著提升。研究结果表明，选择合适的不平衡处理方法对提高复杂模型在文本和图像数据上的分类效果具有重要意义。

Comments 18 pages, 1 figures, 4 tables

2605.14146 2026-05-15 cs.LG

bde: A Python Package for Bayesian Deep Ensembles via MILE

Vyron Arvanitis, Angelos Aslanidis, Emanuel Sommer, David Rügamer

AI总结 bde 是一个用于构建贝叶斯深度集成模型的用户友好型 Python 工具包，特别适用于表格数据。该工具基于高效的 MILE（微正则朗之万集成）采样推理方法实现，支持快速训练、高效的马尔可夫链蒙特卡洛采样以及回归和分类任务中的不确定性量化，为贝叶斯深度学习提供了便捷的解决方案。

2605.14145 2026-05-15 cs.CV

Rethinking the Good Enough Embedding for Easy Few-Shot Learning

Michael Karnes, Alper Yilmaz

AI总结本文探讨了在大规模数据训练下，不同深度视觉模型是否收敛于一个“理想”的潜在表示空间，并提出“好的嵌入即足够”的观点。研究通过冻结DINOv2-L特征并结合k近邻分类器，构建了一个无需反向传播的非参数化少样本学习框架，揭示了最优特征提取层并引入主成分分析和独立成分分析进行流形优化。实验表明，该方法在多个主流基准上优于复杂的元学习算法，达到了当前最优性能。

2605.14141 2026-05-15 cs.AI

Distribution-Aware Algorithm Design with LLM Agents

Saharsh Koganti, Priyadarsi Mishra, Pierfrancesco Beneventano, Tomer Galanti

AI总结本文研究了在学习对象为可执行求解器代码而非预测模型的场景下的学习问题，强调求解器不仅要正确，还需在运行时间上表现优异。研究提出了一种名为“求解器提示”的核心抽象，通过从样本中推断可复用的结构并编译为专用求解器代码，从而提升求解效率和质量。实验表明，基于大语言模型的代码代理生成的求解器在多个组合优化问题上显著优于现有启发式方法和求解器，运行速度提升达数百倍，且在保持较高解质量的同时大幅降低计算复杂度。

2605.14136 2026-05-15 cs.CV

TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion

Nurislam Tursynbek, Zhiqiang Lao, Heather Yu, Gedas Bertasius, Marc Niethammer

AI总结近期文本到视频扩散模型虽然能生成视觉上吸引人的帧，但在时间一致性方面仍存在不足，常出现闪烁、漂移或运动不稳定的问题。本文提出了一种无需训练、仅在推理阶段使用的 TeDiO 方法，通过正则化模型内部的注意力图中的时间对角线模式，增强视频的时间一致性。该方法能够估计对角线平滑度、识别不稳定区域并进行轻量级潜在变量更新，从而在不修改模型权重或依赖外部运动监督的情况下，显著提升多个视频扩散模型的运动流畅性，同时保持每帧的视觉质量。

Comments CVPR'26 Workshop on Agentic AI for Visual Media

2605.14135 2026-05-15 cs.CV

PanoPlane: Plane-Aware Panoramic Completion for Sparse-View Indoor 3D Gaussian Splatting

Adil Qureshi, Dongki Jung, Jaehoon Choi, Dinesh Manocha

AI总结本文提出了一种名为PanoPlane的方法，用于从稀疏视角生成高保真室内新视角图像，其核心是通过全景场景补全重建封闭房间的几何结构。该方法引入了一种无需训练的布局锚定注意力引导机制，在推理时引导扩散模型关注场景中检测到的平面表面，从而实现基于几何一致性的内容补全，替代了传统的无约束幻象生成。实验表明，该方法在Replica、ScanNet++和Matterport3D数据集上均取得了优于现有方法的新视角合成效果，PSNR指标最高提升了17.8%。

2605.14126 2026-05-15 cs.LG cs.AI

Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)

Marius S. Knorr, Robert Müller, Jan P. Bremer, Nils Schweingruber

AI总结本文研究了在Fast Healthcare Interoperability Resources（FHIR）标准下，如何通过强化学习提升医疗信息代理的多步骤推理能力。作者将FHIR中的电子健康记录建模为可查询的结构化图，并设计了一个基于代码操作的多轮代理，通过强化学习进行后训练，以提高其在真实医院数据上的问答性能。实验表明，该方法在FHIR-AgentBench基准上显著提升了答案正确率，并有效保证了数据完整性约束。

2605.14120 2026-05-15 cs.LG cs.CL

Mini-JEPA Foundation Model Fleet Enables Agentic Hydrologic Intelligence

Mashrekur Rahman

AI总结该研究提出了一种名为Mini-JEPA的轻量级基础模型舰队，用于提升水文智能系统的性能。通过为不同传感器专门训练的小型联合嵌入预测架构模型，并由路由代理根据问题选择合适的模型，该方法在保持高精度的同时降低了计算成本。实验表明，Mini-JEPA在多种水文变量预测任务中表现优异，且在与大型模型AlphaEarth的对比中展现出显著的性能提升。

2605.14117 2026-05-15 cs.CL cs.AI

Generative Floor Plan Design with LLMs via Reinforcement Learning with Verifiable Rewards

Luis Lara, Aristides Milios, Zhi Hao Luo, Aditya Sharma, Ge Ya Luo, Christopher Beckham, Florian Golemo, Christopher Pal

AI总结该研究提出了一种基于大语言模型（LLM）并通过可验证奖励强化学习（RLVR）优化的文本生成式平面图设计方法，旨在生成符合用户定义的连接性和数值约束的高质量平面图。通过在真实平面图上微调LLM，并结合约束遵从度指标进行优化，该方法在现实感、兼容性和多样性方面均优于现有方法，尤其在兼容性指标上实现了至少94%的相对提升，展示了LLM在处理结构化设计约束方面的有效性。

Comments Accepted to Findings of ACL 2026

2605.14115 2026-05-15 cs.CL

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Yikun Han, Mengfei Lan, Halil Kilicoglu

AI总结该研究探讨了在生物医学问答任务中，当检索到的证据存在冲突时，大型语言模型的表现问题。通过设计不同的证据条件，研究发现模型在面对矛盾信息时准确性显著下降，并且预测结果会发生翻转。为此，作者提出了一种结合模型置信度和证据冲突检测的弃权评分方法，在困难条件下有效提升了选择性准确性，突显了处理证据冲突对模型不确定性和鲁棒性的重要性。

Comments Accepted by BioNLP 2026

2605.14111 2026-05-15 cs.AI cs.HC

Modeling Bounded Rationality in Drug Shortage Pharmacists Using Attention-Guided Dynamic Decomposition

Yaniv Eliyahu Amiri, Noah Chicoine, Jacqueline Griffin, Stacy Marsella

AI总结本文研究了医院药师在药品短缺情况下如何在不确定、时间压力和患者风险下做出决策的问题，提出了一种基于注意力引导的动态分解框架，将药品分为高成本推理和低成本监控两类，以有限理性方式进行决策。研究构建了专家代理和学习代理两个模型，分别基于药师访谈和经验动态调整注意力分配，实验表明该方法能够在不完全掌握状态信息的情况下实现稳定的决策，揭示了决策的核心不在于具体行动，而在于认知资源的合理分配。

Comments Accepted at CogSci 2026. 6 pages plus references, 1 figure, 2 tables

2605.14110 2026-05-15 cs.CV cs.RO

SToRe3D: Sparse Token Relevance in ViTs for Efficient Multi-View 3D Object Detection

Sandro Papais, Lezhou Feng, Charles Cossette, Lingting Ge

AI总结本文提出SToRe3D，一种用于高效多视角3D目标检测的稀疏性框架，旨在解决视觉Transformer（ViT）在处理多视角和大范围3D区域时计算量大、推理延迟高的问题。该方法通过联合选择2D图像token和3D目标查询，并结合特征存储与重新激活机制，实现对关键信息的计算分配。实验表明，SToRe3D在保持检测精度的同时，显著提升了推理速度，为实时大规模3D检测提供了可行方案。

Comments Accepted to CVPR 2026

2605.14108 2026-05-15 cs.CV cs.AI cs.LG

Bridging the Rural Healthcare Gap: A Cascaded Edge-Cloud Architecture for Automated Retinal Screening

Nishi Doshi, Shrey Shah

AI总结该研究针对农村地区糖尿病视网膜病变（DR）筛查资源不足的问题，提出了一种边缘-云端级联架构，以提高筛查效率并降低云端计算负担。该架构分为两层：第一层使用轻量级的MobileNetV3-small模型在本地设备上进行二分类分诊，判断是否需要转诊；第二层在云端使用RETFoundDINOv2模型对需转诊的图像进行细粒度严重程度分级。实验表明，该方法在APTOS数据集上显著减少了云端调用次数，同时保持了较高的筛查准确性。

2605.14106 2026-05-15 cs.RO

Behavior Cloning for Active Perception with Low-Resolution Egocentric Vision

Anthony Bilic, Chen Chen, Ladislau Bölöni

AI总结本文研究了行为克隆在结构化物体寻找任务中是否能够实现主动感知。通过一个配备手腕安装的低分辨率RGB摄像头的低成本机械臂，模型直接从低分辨率图像中预测关节命令，在闭环控制下实现对部分可见植物的定位与抓取。实验表明，低分辨率的自中心视觉足以完成任务，且相对关节变化的预测优于绝对位置预测，展示了基于视觉的行为克隆可以有效实现可复现的主动感知。

2605.14104 2026-05-15 cs.CV

DUET: Dual-Paradigm Adaptive Expert Triage with Single-cell Inductive Prior for Spatial Transcriptomics Prediction

Junchao Zhu, Ruining Deng, Junlin Guo, Tianyuan Yao, Chongyu Qu, Juming Xiong, Zhengyi Lu, Yanfan Zhu, Marilyn Lionts, Yuechen Yang, Yu Wang, Shilin Zhao, Haichun Yang, Yuankai Huo

AI总结该研究提出了一种名为DUET的新型双范式框架，用于从组织切片图像中预测空间转录组数据。DUET结合了参数化预测与基于记忆的检索方法，在细胞归纳先验的指导下实现更准确的基因表达推断。通过引入大规模单细胞数据作为分子约束，并设计轻量适配器动态调整不同空间区域的模型偏好，DUET在多个公开数据集上取得了当前最优的预测性能。

2605.14089 2026-05-15 cs.AI

SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration

Mingda Zhang, Tiesunlong Shen, Haoran Luo, Wenjin Liu, Zikai Xiao, Erik Cambria, Xiaoying Tang

AI总结 SkillFlow 是一种基于流模型的框架，旨在解决智能体编排中的关键挑战，如策略崩溃、信用分配不透明和技能演化缺乏指导。该方法通过可训练的监督器与结构化环境进行多轮交互，结合温差轨迹平衡损失实现多样化的策略保持与透明的信用分配，并引入递归技能演化机制以自主决定技能的生成、剪枝与改进。实验表明，SkillFlow 在多个任务上显著优于现有方法。

Comments 49 pages, 5 figures, 6 tables

2605.14075 2026-05-15 cs.LG cs.CL

Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

Cristian Hinostroza, Rodrigo Toro Icarte, Christ Devia, Andres Carvallo De Ferari, Eugenio Herrera-Berg, Denis Parra, Jorge F Silva

AI总结本文探讨了在大语言模型中，层相关性评估应超越传统的余弦相似度方法。研究指出，余弦相似度无法准确反映移除某层对模型性能的实际影响，理论分析表明即使某层余弦相似度极低，也可能对模型性能至关重要。为此，作者提出以移除某层后模型准确率的实际下降作为更可靠的评估指标，尽管计算成本较高，但能更准确地指导模型剪枝与轻量化设计，对构建可解释的大语言模型具有重要意义。

Comments Published at ICLR 2026

2605.14074 2026-05-15 cs.LG

Fair and Calibrated Toxicity Detection with Robust Training and Abstention

Mokshit Surana

AI总结该研究探讨了毒性检测中的公平性问题，关注排序、校准和弃权三个维度，并比较了多种训练方法与后处理机制在这些维度上的表现。研究发现，传统方法如经验风险最小化（ERM）虽然整体校准良好，但在不同身份子群中存在显著的校准偏差；而训练干预措施虽能改善排序性能，却可能加剧校准公平性差距。此外，后处理方法如温度缩放和置信度弃权也继承了训练阶段的问题，甚至可能引入新的不公平性。论文强调，实现真正的公平性需要多维度的综合考量，单一维度的优化不足以确保实际应用中的公平表现。

2605.14073 2026-05-15 cs.LG cs.AI

AttnGen: Attention-Guided Saliency Learning for Interpretable Genomic Sequence Classification

Rayhaneh Shabani Nia, Ali Karkehabadi

AI总结本文提出了一种名为 AttnGen 的注意力引导训练框架，旨在提升基因组序列分类模型的可解释性。该方法通过注意力机制计算核苷酸层面的重要性评分，并在训练过程中逐步抑制低贡献位置，使模型更关注具有信息量的区域，减少对噪声序列元素的依赖。实验表明，AttnGen 在标准基准数据集上取得了优于传统卷积神经网络的分类性能，并通过扰动分析验证了其重要性评分的有效性，展示了模型对一小部分关键位置的高度依赖。

Comments Accepted at IEEE CCGE 2026

2605.14071 2026-05-15 cs.CL

Distribution Corrected Offline Data Distillation for Large Language Models

Yumeng Zhang, Zhengbang Yang, Yevin Nikhel Goonatilake, Zhuangdi Zhu

AI总结本文研究了如何从大型语言模型中有效地蒸馏推理能力到小型模型中，特别是在资源受限的场景下。为了解决现有方法在离线蒸馏中面临的分布偏移问题，作者提出了一种基于分布校正的离线数据蒸馏框架，通过自适应地强调与学生模型推理分布更一致的教师模型指导，从而在保持离线数据高效性和监督质量的同时，减少推理过程中的误差累积。实验表明，该方法在多个数学推理基准测试中显著提升了推理准确性和稳定性。

2605.14069 2026-05-15 cs.LG

SurF: A Generative Model for Multivariate Irregular Time Series Forecasting

Mohammad R. Rezaei, Tejas Balaji, Rahul G. Krishnan

AI总结本文提出了一种名为 SurF 的生成模型，用于处理多变量不规则时间序列的预测问题。该模型基于时间尺度变换定理，将事件序列与独立同分布的单位速率指数噪声之间建立可学习的双射关系，从而实现对异构事件流数据的统一建模。研究还引入了三种高效的累积强度参数化方法以及基于 Transformer 的编码器用于多数据集预训练。实验表明，SurF 在多个现实数据集上取得了优于现有方法的预测性能，为异步事件流的基础模型研究奠定了初步基础。