arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2504.07738 2026-05-15 cs.CL

Automated Construction of a Knowledge Graph of Nuclear Fusion Energy for Effective Elicitation and Retrieval of Information

Andrea Loreti, Kesi Chen, Ruby George, Robert Firth, Adriano Agnello, Shinnosuke Tanaka

发表机构 * UK Atomic Energy Authority, Culham Campus（英国原子能管理局，库尔汉校区）； STFC Hartree Centre（STFC哈特里中心）； Sci-Tech Daresbury（科技达尔斯伯里）； IBM Research（IBM研究院）

AI总结本文提出了一种多步骤方法，用于自动构建核聚变能源领域的知识图谱，以有效组织和表示大规模文档中的专业知识。研究重点在于利用预训练的大语言模型实现自动命名实体识别与实体解析，并通过Zipf定律评估其性能。此外，作者开发了一种基于知识图谱的检索增强生成系统，能够通过多轮提示机制，为自然语言查询提供上下文相关的答案，尤其适用于需要跨实体推理的复杂问题。

2502.17347 2026-05-15 cs.RO

SoFFT: Spatial Fourier Transform for Modeling Continuum Soft Robots

Daniele Caradonna, Diego Bianchi, Franco Angelini, Egidio Falotico

发表机构 * The BioRobotics Institute, Scuola Superiore Sant'Anna, Pisa, Italy（生物机器人研究所，圣安娜高等学院，意大利比萨）； Department of Excellence in Robotics（机器人卓越部门）

AI总结本文提出了一种基于空间傅里叶变换（SoFFT）的建模方法，用于描述连续体软机器人的变形。该方法将机器人的主干结构视为时空信号，利用傅里叶变换对其进行紧凑表示，从而在保持变形精度的同时减少自由度。该方法不仅统一了现有的Cosserat杆理论建模策略，还提供了一种数据驱动的实验方法，通过数值仿真和实物实验验证了其有效性。

2502.09198 2026-05-15 cs.LG

Understanding High-Dimensional Bayesian Optimization

Leonard Papenmeier, Matthias Poloczek, Luigi Nardi

发表机构 * Department of Computer Science, Lund University, Lund, Sweden（隆德大学计算机科学系）； Amazon（亚马逊）

AI总结本文探讨了为什么简单的贝叶斯优化方法在高维现实任务中表现良好，这与以往的研究结论似乎相矛盾。研究发现，高维贝叶斯优化面临一些关键挑战，其中高斯过程初始化导致的梯度消失是影响性能的主要因素。作者提出通过最大似然估计确定高斯过程的长度尺度，并基于此设计了一种简单有效的方法MSR，在多个实际应用中达到了领先水平。

Comments 22 pages, 21 figures. Accepted to ICML 2025

Journal ref Proceedings of the 42nd International Conference on Machine Learning, PMLR 267:47902-47923, 2025

2502.08208 2026-05-15 cs.LG

Exploring Exploration in Bayesian Optimization

Leonard Papenmeier, Nuojin Cheng, Stephen Becker, Luigi Nardi

发表机构 * Department of Computer Science, Lund University（卢德大学计算机科学系）； Department of Applied Mathematics, University of Colorado Boulder（科罗拉多大学博尔德分校应用数学系）； DBtune

AI总结在贝叶斯优化中，探索与利用的平衡对获取函数的性能至关重要。本文提出了两种新的度量方法——观测旅行商距离和观测熵，用于量化获取函数的探索特性。通过这些度量，研究分析了多种经典获取函数在不同黑箱问题中的探索行为，揭示了探索与实际性能之间的联系，并发现了现有获取函数之间的新关系，为获取函数的设计提供了更系统和原理化的指导。

Comments 28 pages, 34 figures

Journal ref Proceedings of the Forty-first Conference on Uncertainty in Artificial Intelligence, PMLR 286:3388-3415, 2025

2409.10038 2026-05-15 cs.CL cs.AI cs.LG

On the Diagram of Thought

Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

发表机构 * IIIS Tsinghua University（清华大学人工智能研究院）； Shanghai Qi Zhi Institute（上海启智研究院）

AI总结大型语言模型（LLMs）在许多任务中表现出色，但在需要结构化、多步骤推理的复杂问题上表现不佳。本文提出了一种名为“思维图谱”（Diagram of Thought, DoT）的框架，使单个LLM能够构建和导航其推理过程的思维地图，通过动态构建思想图谱，模型可以提出不同的推理路径、自我批评并整合验证后的见解形成最终结论。该方法无需外部搜索算法或规划器，仅依赖于确定性的在线验证器，并基于范畴论的数学框架，为LLM的结构化推理过程提供了可审计的步骤追踪和语义保证。

Comments 30 pages

2408.16307 2026-05-15 cs.RO cs.AI

Safe Bayesian Optimization for Complex Control Systems via Additive Gaussian Processes

Hongxuan Wang, Xiaocong Li, Lihao Zheng, Adrish Bhaumik, Prahlad Vadakkepat

发表机构 * National University of Singapore（新加坡国立大学）； SIMTech, A*STAR ； CUHK, Shenzhen（香港中文大学（深圳））

AI总结本文提出了一种名为 SafeCtrlBO 的安全贝叶斯优化方法，用于同时调整多级耦合控制器的参数，以解决复杂控制系统的安全优化问题。该方法通过使用加法高斯过程核来捕捉控制器增益之间的低阶结构，从而降低样本复杂度，并采用基于边界的扩展规则替代传统方法中的高计算成本步骤，以保证在硬件实验中的安全约束。实验表明，SafeCtrlBO 在减少硬件评估次数的同时，能够有效达到高性能控制器参数，并保持高概率安全性和硬信号安全约束的满足。

Comments The shorter version has been accepted by IEEE Robotics and Automation Letters. This is the full version

2405.07459 2026-05-15 cs.CV

DAPL: Integration of Positive and Negative Descriptions in Text-Based Person Search

Yuchuan Deng, Zhanpeng Hu, Zijie Xin, Chuang Deng, Qijun Zhao

发表机构 * Sichuan University（四川大学）； Renmin University of China（中国人民大学）

AI总结本文研究了基于文本的行人检索（TBPS）任务中如何有效整合正负描述信息的问题。现有方法主要关注正向属性，忽视了负向描述的重要性，可能导致误检。为此，作者提出了DAPL框架，通过结合正负描述，引入双属性对比学习和敏感属性匹配学习，提升模型对未见属性的识别能力，并设计动态词元相似度损失函数，优化视觉与文本嵌入的对齐精度，显著提升了TBPS任务的准确性和鲁棒性。

Journal ref 2025 IEEE International Conference on Multimedia and Expo (ICME)

2304.11468 2026-05-15 cs.LG stat.ML

Increasing the Scope as You Learn: Adaptive Bayesian Optimization in Nested Subspaces

Leonard Papenmeier, Luigi Nardi, Matthias Poloczek

发表机构 * Lund University（吕勒欧大学）； Stanford University（斯坦福大学）； DBtune ； Amazon（亚马逊）

AI总结本文提出了一种名为BAxUS的自适应贝叶斯优化方法，通过引入嵌套随机子空间，在优化过程中动态调整搜索空间，以应对高维黑箱函数优化中的性能下降问题。该方法在理论上保证了稳定性，并在多个应用任务中表现出优于现有先进方法的优化效果。

Comments 28 pages, 8 figures. Accepted to NeurIPS 2022. This is the revised version and includes the appendix

Journal ref Advances in Neural Information Processing Systems 35 (NeurIPS 2022), pp. 11586-11601

2605.14186 2026-05-15 cs.LG

LLMs Know When They Know, but Do Not Act on It: A Metacognitive Harness for Test-time Scaling

Qi Cao, Yufan Wang, Peijia Qin, Shuhao Zhang, Pengtao Xie

发表机构 * University of California, San Diego（加州大学圣地亚哥分校）

AI总结大型语言模型（LLMs）在解决问题前后能够产生自我监控信号，如对自身能否成功解决问题的预判以及对答案正确性的后验判断，但这些信号通常未被用于控制推理过程。本文提出一种元认知控制框架，基于认知心理学中的纳尔逊-纳雷恩斯理论，将监控与推理分离，使模型在推理过程中根据预判和后验判断动态决定是否信任当前结果、是否重试或汇总多轮结果。实验表明，该框架无需参数更新或特定任务微调，即可显著提升基础模型在文本、代码和多模态任务中的表现。

2605.14175 2026-05-15 cs.AI

Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations

Qisong He, Yi Dong, Xiaowei Huang

发表机构 * School of Computer Science and Informatics, University of Liverpool, UK（利兹大学计算机科学与信息学学院）

AI总结本文提出了一种名为 Grounded Continuation 的运行时验证器，用于检测大型语言模型在长对话中生成的回复是否基于当前对话上下文中的有效前提。该方法通过构建显式的依赖图，将每轮对话归类为不同形式的逻辑操作，并记录主张与证据之间的依赖关系，从而在常数时间内验证回复的合理性并追踪不支持的结论。实验表明，该验证器在多个基准测试中优于仅依赖语言模型或检索增强的基线方法，尤其在检测过时前提方面表现出色，验证了其在逻辑严谨性和实际应用中的有效性。

2605.14174 2026-05-15 cs.RO

Safety-Constrained Reinforcement Learning with Post-Training Reachability Verification for Robot Navigation

Qisong He, Xinmiao Huang, Jinwei Hu, Zhuoyun Li, Yi Dong, Changshun Wu, Xiaowei Huang

发表机构 * University of Liverpool（利物浦大学）； Université Grenoble Alpes（格勒诺布尔阿尔卑斯大学）

AI总结该研究针对移动机器人在复杂环境中安全导航的问题，提出了一种结合条件风险价值（CVaR）约束优化与后训练可达性验证的强化学习框架。通过在离策略TD3算法中引入CVaR约束，使策略对高风险尾部事件更加敏感，从而提升安全性；训练后利用泰勒模型分析计算动作可达集，量化策略在不同状态下的安全余量。实验表明，该方法在多个导航场景中取得了最高的安全验证率，并揭示了传统平均成本指标可能遗漏的风险。

2605.14171 2026-05-15 cs.LG cs.NI

CSI-JEPA: Towards Foundation Representations for Ubiquitous Sensing with Minimal Supervision

Xuanhao Luo, Zhizhen Li, Yuchen Liu

发表机构 * North Carolina State University, USA（北卡罗来纳州立大学）

AI总结本文提出了一种名为CSI-JEPA的自监督学习框架，旨在通过最小的监督实现通用的Wi-Fi感知表示学习。该方法通过预测被遮蔽信道区域的潜在特征，从未标记的CSI数据中学习可复用的时频表示，并引入了基于信道变化特性的遮蔽策略以提升表示能力。实验表明，CSI-JEPA在多个实际场景的感知任务中优于现有监督方法，显著提升了性能并减少了对标注数据的依赖。

2605.14169 2026-05-15 cs.CL

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

Letian Peng, Ziche Liu, Yiming Huang, Longfei Yun, Kun Zhou, Yupeng Hou, Jingbo Shang

发表机构 * University of California, San Diego（加州大学圣地亚哥分校）

AI总结本文提出了一种名为BOOKMARKS的高效主动故事线记忆框架，用于角色扮演代理（RPA），以解决现有方法在长期一致性维护中因信息压缩而丢失关键细节的问题。该方法通过主动初始化和更新与任务相关的“书签”来记录故事中的关键问题与答案，从而在保证任务细节的同时减少重复计算。实验表明，BOOKMARKS在多个角色和任务上显著优于传统记忆方法，验证了其在角色扮演场景中的有效性。

2605.14168 2026-05-15 cs.LG cs.DS stat.ML

Finite Sample Bounds for Learning with Score Matching

Devin Smedira, Abhijith Jayakumar, Sidhant Misra, Marc Vuffray, Andrey Y. Lokhov

发表机构 * Operations Research Center, Massachusetts Institute of Technology（麻省理工学院运筹学研究中心）； Theoretical division, Los Alamos National Lab（洛斯阿拉莫斯国家实验室理论部）

AI总结本文研究了在有限样本条件下，使用得分匹配方法学习连续指数族分布的统计学习问题。作者提供了非渐近的样本复杂度分析，揭示了模型维数的多项式依赖关系，这是该领域首个此类结果。该工作填补了得分匹配理论分析的空白，为高维统计学习提供了重要的理论保证。

Comments 22 pages

2605.14167 2026-05-15 cs.AI cs.CY

The Evaluation Trap: Benchmark Design as Theoretical Commitment

Theodore J Kalaitzidis

发表机构 * Brown University（布朗大学）

AI总结该论文探讨了AI基准测试中隐含的理论假设如何影响对能力评估的定义与进展方向，指出当这些假设未经审视时，基准测试会固化主流范式并限制对能力的真正理解。文章提出了一种名为“Epistematics”的方法论，用于从技术能力声明中直接推导评估标准，并检验基准测试是否能区分真实能力与表面行为。其核心贡献在于提供了一套元评估框架，包括评估流程、失败模式分类及基准设计准则，以提升评估与目标能力之间的一致性。

Comments 13 pages

2605.14164 2026-05-15 cs.AI

Unsteady Metrics and Benchmarking Cultures of AI Model Builders

Stefan Baack, Christo Buschek, Maty Bohacek

发表机构 * Independent Researcher（独立研究者）； Stanford University（斯坦福大学）

AI总结该研究探讨了基础模型和生成式AI模型构建者在评估模型能力时所依赖的基准测试文化，发现其主要依据已从学术论文转向公司发布的新闻稿和博客，这些内容成为定义当前技术水平的重要依据。研究通过构建并开源Benchmarking-Cultures-25数据集，分析了2025年11家主要AI公司发布的139个模型中所强调的231个基准，揭示了当前评估体系碎片化、跨模型可比性低的问题，并提出统一分类框架以解析不同模型构建者对基准能力的异质化描述。

详情

英文摘要

The primary way to establish and compare competencies in foundation and generative AI models has shifted from peer-reviewed literature to press releases and company blog posts, where model builders highlight results on selected benchmarks. These artifacts now largely define the state of the art for researchers and the public. Despite their prominence, which benchmarks model builders choose to highlight, and what they communicate through this selection, is underexamined. To investigate, we introduce and open-source Benchmarking-Cultures-25, a dataset of 231 benchmarks highlighted across 139 model releases in 2025 from 11 major AI builders, alongside an interactive tool to explore the data. Our analysis reveals a fragmented evaluation landscape with limited cross-model comparability: 63.2% of highlighted benchmarks are used by a single builder, and 38.5% appear in just one release. Few achieve widespread use (e.g., GPQA Diamond, LiveCodeBench, AIME 2025). Moreover, benchmarks are attributed different competencies by different builders, depending on their narrative. To disentangle these conflicting presentations, we develop a unified taxonomy mapping diverging terminology to a shared framework of measured signals based on what benchmark authors claim to measure. "General knowledge application" is the second most popular, yet vaguely defined, category. Qualitative analysis shows many such benchmarks deemphasize construct validity, instead framing results as indicators of progress toward AGI. Their authors claim to measure knowledge or reasoning broadly, yet mostly evaluate STEM subjects (especially math). We argue that highlighted benchmarks function less as standardized measurement tools and more as flexible narrative devices prioritizing market positioning over scientific evaluation. Data: https://hf.co/datasets/matybohacek/benchmarking-cultures-25; tool: https://bench-cultures.net.

URL PDF HTML ☆

赞 0 踩 0

2605.14163 2026-05-15 cs.AI

Agentic Systems as Boosting Weak Reasoning Models

Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti

发表机构 * Texas A&M University（德克萨斯A&M大学）； MIT（麻省理工学院）

AI总结本文研究如何通过组合多个弱推理模型的输出，达到强模型的性能。核心方法是引入验证者支持的委员会搜索机制，在推理时通过提案、批评和比较模块协同工作，提升整体推理能力。研究证明，仅靠增加模型数量不足以提升性能，还需结合局部正确性信号，如执行、类型检查等，以确保选择的有效性。实验表明，通过合理设计的机制，弱模型组合可达到与强模型相当的性能，主要挑战在于如何从提案中有效筛选出正确解。

2605.14156 2026-05-15 cs.LG

Uncovering Trajectory and Topological Signatures in Multimodal Pediatric Sleep Embeddings

Scott Ye, Harlin Lee

发表机构 * Department of Radiology（放射科）； University of California San Francisco（加州大学旧金山分校）； UNC–Chapel Hill（北卡罗来纳大学教堂山分校）； UNC School of Data Science and Society（北卡罗来纳大学教堂山分校数据科学与社会学院）

AI总结该研究探讨了多模态掩码自编码器在儿科睡眠数据分析中的潜在诊断信息，通过结合拓扑特征、几何结构和电子健康记录（EHR）来增强嵌入表示。研究发现，融合这些额外信息后，线性模型和多层感知机在睡眠障碍预测任务中表现出更好的性能与可解释性，尤其在极端类别不平衡情况下，融合模型显著提升了预测的校准性和鲁棒性。

Comments Accepted to ML4H 2025, 20 pages, 6 figures

Journal ref Proceedings of the Fifth Machine Learning for Health Symposium, PMLR 297:1392-1411, 2025

2605.14152 2026-05-15 cs.CL cs.AI cs.CR cs.CY

ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety

Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

发表机构 * Scale AI

AI总结本文提出ROK-FORTRESS，一个用于评估大型语言模型在国家安全与公共安全领域风险的双语基准，聚焦于英韩语言对及美韩地缘政治背景下的交互影响。通过构建“转译矩阵”，该方法分离语言和地缘政治因素，系统评估模型在不同语言和实体背景下的安全响应行为。研究发现，韩国语言和地缘政治背景的结合对模型安全行为有显著影响，且不同模型对此的反应存在差异，表明传统仅依赖翻译的评估方式可能低估了语言与地缘政治交互带来的风险。

Comments 16 pages main body + appendix (63 total), 5 main figures, 4 main tables; dataset at https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public

2605.14147 2026-05-15 cs.LG

A Systematic Evaluation of Imbalance Handling Methods in Biomedical Binary Classification

Jiandong Chen, Lingjie Su, Le Peng, Yash Travadi, Rui Zhang, Ju Sun

发表机构 * Institute for Health Informatics, University of Minnesota（明尼苏达大学健康信息学研究所）； Department of Computer Science and Engineering, University of Minnesota（明尼苏达大学计算机科学与工程系）； School of Statistics, University of Minnesota（明尼苏达大学统计学系）； Division of Computational Health Sciences, Department of Surgery, University of Minnesota（明尼苏达大学外科系计算健康科学分会）

AI总结本研究系统评估了常用不平衡数据处理方法在生物医学二分类任务中的影响，探讨了模型复杂度与数据模态之间的相互作用。通过在三种典型生物医学数据集上测试多种处理方法，发现简单模型如逻辑回归对不平衡处理方法不敏感，而复杂模型如深度神经网络在使用重采样或权重调整方法时性能显著提升。研究结果表明，选择合适的不平衡处理方法对提高复杂模型在文本和图像数据上的分类效果具有重要意义。

Comments 18 pages, 1 figures, 4 tables

2605.14146 2026-05-15 cs.LG

bde: A Python Package for Bayesian Deep Ensembles via MILE

Vyron Arvanitis, Angelos Aslanidis, Emanuel Sommer, David Rügamer

发表机构 * Faculty of Physics, LMU Munich（物理系，慕尼黑大学）； Department of Statistics, LMU Munich（统计系，慕尼黑大学）； Munich Center for Machine Learning（慕尼黑机器学习中心）

AI总结 bde 是一个用于构建贝叶斯深度集成模型的用户友好型 Python 工具包，特别适用于表格数据。该工具基于高效的 MILE（微正则朗之万集成）采样推理方法实现，支持快速训练、高效的马尔可夫链蒙特卡洛采样以及回归和分类任务中的不确定性量化，为贝叶斯深度学习提供了便捷的解决方案。

2605.14145 2026-05-15 cs.CV

Rethinking the Good Enough Embedding for Easy Few-Shot Learning

Michael Karnes, Alper Yilmaz

发表机构 * The Ohio State University（俄亥俄州立大学）

AI总结本文探讨了在大规模数据训练下，不同深度视觉模型是否收敛于一个“理想”的潜在表示空间，并提出“好的嵌入即足够”的观点。研究通过冻结DINOv2-L特征并结合k近邻分类器，构建了一个无需反向传播的非参数化少样本学习框架，揭示了最优特征提取层并引入主成分分析和独立成分分析进行流形优化。实验表明，该方法在多个主流基准上优于复杂的元学习算法，达到了当前最优性能。

2605.14141 2026-05-15 cs.AI

Distribution-Aware Algorithm Design with LLM Agents

Saharsh Koganti, Priyadarsi Mishra, Pierfrancesco Beneventano, Tomer Galanti

发表机构 * Texas A&M University（德克萨斯大学）； Massachusetts Institute of Technology（麻省理工学院）

AI总结本文研究了在学习对象为可执行求解器代码而非预测模型的场景下的学习问题，强调求解器不仅要正确，还需在运行时间上表现优异。研究提出了一种名为“求解器提示”的核心抽象，通过从样本中推断可复用的结构并编译为专用求解器代码，从而提升求解效率和质量。实验表明，基于大语言模型的代码代理生成的求解器在多个组合优化问题上显著优于现有启发式方法和求解器，运行速度提升达数百倍，且在保持较高解质量的同时大幅降低计算复杂度。

2605.14136 2026-05-15 cs.CV

TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion

Nurislam Tursynbek, Zhiqiang Lao, Heather Yu, Gedas Bertasius, Marc Niethammer

发表机构 * UNC Chapel Hill（北卡罗来纳大学教堂山分校）； Futurewei Technologies Inc（未来科技有限公司）； UCSD（加州大学圣迭戈分校）

AI总结近期文本到视频扩散模型虽然能生成视觉上吸引人的帧，但在时间一致性方面仍存在不足，常出现闪烁、漂移或运动不稳定的问题。本文提出了一种无需训练、仅在推理阶段使用的 TeDiO 方法，通过正则化模型内部的注意力图中的时间对角线模式，增强视频的时间一致性。该方法能够估计对角线平滑度、识别不稳定区域并进行轻量级潜在变量更新，从而在不修改模型权重或依赖外部运动监督的情况下，显著提升多个视频扩散模型的运动流畅性，同时保持每帧的视觉质量。

Comments CVPR'26 Workshop on Agentic AI for Visual Media

2605.14135 2026-05-15 cs.CV

PanoPlane: Plane-Aware Panoramic Completion for Sparse-View Indoor 3D Gaussian Splatting

Adil Qureshi, Dongki Jung, Jaehoon Choi, Dinesh Manocha

发表机构 * University of Maryland, College Park（马里兰大学学院公园分校）

AI总结本文提出了一种名为PanoPlane的方法，用于从稀疏视角生成高保真室内新视角图像，其核心是通过全景场景补全重建封闭房间的几何结构。该方法引入了一种无需训练的布局锚定注意力引导机制，在推理时引导扩散模型关注场景中检测到的平面表面，从而实现基于几何一致性的内容补全，替代了传统的无约束幻象生成。实验表明，该方法在Replica、ScanNet++和Matterport3D数据集上均取得了优于现有方法的新视角合成效果，PSNR指标最高提升了17.8%。

2605.14126 2026-05-15 cs.LG cs.AI

Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)

Marius S. Knorr, Robert Müller, Jan P. Bremer, Nils Schweingruber

发表机构 * IDM gGmbH, University Medical Center Hamburg-Eppendorf, Hamburg, Germany（IDM公司，汉堡埃彭多夫大学医疗中心，德国汉堡）

AI总结本文研究了在Fast Healthcare Interoperability Resources（FHIR）标准下，如何通过强化学习提升医疗信息代理的多步骤推理能力。作者将FHIR中的电子健康记录建模为可查询的结构化图，并设计了一个基于代码操作的多轮代理，通过强化学习进行后训练，以提高其在真实医院数据上的问答性能。实验表明，该方法在FHIR-AgentBench基准上显著提升了答案正确率，并有效保证了数据完整性约束。

2605.14120 2026-05-15 cs.LG cs.CL

Mini-JEPA Foundation Model Fleet Enables Agentic Hydrologic Intelligence

Mashrekur Rahman

发表机构 * Dartmouth Libraries, Dartmouth College（达特茅斯图书馆，达特茅斯大学）

AI总结该研究提出了一种名为Mini-JEPA的轻量级基础模型舰队，用于提升水文智能系统的性能。通过为不同传感器专门训练的小型联合嵌入预测架构模型，并由路由代理根据问题选择合适的模型，该方法在保持高精度的同时降低了计算成本。实验表明，Mini-JEPA在多种水文变量预测任务中表现优异，且在与大型模型AlphaEarth的对比中展现出显著的性能提升。

2605.14117 2026-05-15 cs.CL cs.AI

Generative Floor Plan Design with LLMs via Reinforcement Learning with Verifiable Rewards

Luis Lara, Aristides Milios, Zhi Hao Luo, Aditya Sharma, Ge Ya Luo, Christopher Beckham, Florian Golemo, Christopher Pal

发表机构 * Mila – Quebec AI Institute（魁北克人工智能研究所）； Université de Montréal（蒙特利尔大学）； Polytechnique Montréal（蒙特利尔理工学院）； Canada CIFAR AI Chair（加拿大CIFAR人工智能主席）

AI总结该研究提出了一种基于大语言模型（LLM）并通过可验证奖励强化学习（RLVR）优化的文本生成式平面图设计方法，旨在生成符合用户定义的连接性和数值约束的高质量平面图。通过在真实平面图上微调LLM，并结合约束遵从度指标进行优化，该方法在现实感、兼容性和多样性方面均优于现有方法，尤其在兼容性指标上实现了至少94%的相对提升，展示了LLM在处理结构化设计约束方面的有效性。

Comments Accepted to Findings of ACL 2026

2605.14115 2026-05-15 cs.CL

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Yikun Han, Mengfei Lan, Halil Kilicoglu

发表机构 * University of Illinois Urbana-Champaign（伊利诺伊大学厄巴纳-香槟分校）

AI总结该研究探讨了在生物医学问答任务中，当检索到的证据存在冲突时，大型语言模型的表现问题。通过设计不同的证据条件，研究发现模型在面对矛盾信息时准确性显著下降，并且预测结果会发生翻转。为此，作者提出了一种结合模型置信度和证据冲突检测的弃权评分方法，在困难条件下有效提升了选择性准确性，突显了处理证据冲突对模型不确定性和鲁棒性的重要性。

Comments Accepted by BioNLP 2026

2605.14111 2026-05-15 cs.AI cs.HC

Modeling Bounded Rationality in Drug Shortage Pharmacists Using Attention-Guided Dynamic Decomposition

Yaniv Eliyahu Amiri, Noah Chicoine, Jacqueline Griffin, Stacy Marsella

发表机构 * Khoury College of Computer Sciences, Northeastern University, Boston, MA, USA（东北大学科里学院计算机科学系，波士顿，马萨诸塞州，美国）； Department of Mechanical and Industrial Engineering, Northeastern University, Boston, MA, USA（东北大学机械与工业工程系，波士顿，马萨诸塞州，美国）； Department of Psychology, Northeastern University, Boston, MA, USA（东北大学心理学系，波士顿，马萨诸塞州，美国）

AI总结本文研究了医院药师在药品短缺情况下如何在不确定、时间压力和患者风险下做出决策的问题，提出了一种基于注意力引导的动态分解框架，将药品分为高成本推理和低成本监控两类，以有限理性方式进行决策。研究构建了专家代理和学习代理两个模型，分别基于药师访谈和经验动态调整注意力分配，实验表明该方法能够在不完全掌握状态信息的情况下实现稳定的决策，揭示了决策的核心不在于具体行动，而在于认知资源的合理分配。

Comments Accepted at CogSci 2026. 6 pages plus references, 1 figure, 2 tables

AI 大模型

视觉与机器人

科学与医疗