arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.07278 2026-05-11 cs.LG cs.AI cs.CV

Predictive but Not Plannable: RC-aux for Latent World Models

Wenyuan Li, Guang Li, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

AI总结该研究探讨了潜在世界模型在预测准确但难以用于长期规划的问题，指出其核心挑战是时空对齐不足。为此，作者提出了一种轻量级辅助目标RC-aux，通过时间轴上的多步预测和空间轴上的预算条件可达性监督，增强潜在空间与规划任务的一致性。实验表明，RC-aux在不改变模型主干的前提下，有效提升了基于潜在世界模型的长期规划性能。

2605.07277 2026-05-11 cs.LG cs.AI

Bifurcation Models: Learning Set-Valued Solution Maps with Weight-Tied Dynamics

Caleb Jore, Jialin Liu

AI总结该论文研究了如何学习具有多个正确解的科学与组合问题的解集映射，提出了分叉模型，通过权值共享的动力系统实现不同初始条件收敛到不同稳定平衡点，从而表示吸引子景观而非单一解路径。理论证明该模型能够表示具有局部利普希茨分支的广泛集值映射，并且其选择器几乎处处规则，优于人工选择器。实验表明，该方法在受挫伊辛模型和Allen–Cahn方程中能有效发现多个有效解，且在准确率与多样性之间存在权衡。

2605.07276 2026-05-11 cs.AI

Signal Reshaping for GRPO in Weak-Feedback Agentic Code Repair

Jia Li, Yuxin Su, Ting Peng, Hailiang Huang, Yuetang Deng, Michael R. Lyu

AI总结本文研究了在弱反馈环境下，如何通过信号重塑改进基于代理的代码修复中的GRPO（组归一化策略优化）方法。作者提出，需对奖励信号、过程信号和执行信号三类反馈进行重塑，以提升语义准确性与策略更新效率。实验表明，该方法显著提高了代码编译与语义的准确率，并减少了评估步骤，验证了信号重塑在长期工具使用场景中的有效性。

2605.07275 2026-05-11 cs.RO

Palm-sized Omnidirectional Vision-Based UAV Exploration with Sparse Topological Map Guidance

Zirui Wang, Xinjia Luo, Haotian Sun, Jun Ma, Jian Guo, Boyu Zhou

AI总结本文提出了一种基于稀疏拓扑地图引导的轻量级自主探索系统，适用于手掌大小的无人机。该系统利用多鱼眼相机实现全景视野，并通过深度估计进行环境感知，避免了传统方法对高分辨率点云或占用地图的依赖，从而大幅降低了计算和存储开销。通过将未探索区域表示为拓扑节点，系统能够在不维护全局点云的情况下高效识别前沿区域，并直接在稀疏图上进行全局路径规划，实验证明该方法在实际小型无人机上具有高效且低计算消耗的探索能力。

2605.07274 2026-05-11 cs.AI cs.LG

Structured Role-Aware Policy Optimization for Multimodal Reasoning

Bingqing Jiang, Difan Zou

AI总结本文研究了如何通过角色感知的策略优化提升多模态推理模型的可靠性。针对现有方法在序列层面分配奖励而忽略不同token功能角色的问题，提出了一种结构化角色感知策略优化（SRPO）方法，将响应分解为感知token和推理token，并在token层面进行信用分配。SRPO通过自蒸馏的策略对比，分别强调感知token对视觉输入的依赖性和推理token与感知结果的一致性，无需外部奖励模型即可提升基于证据的推理能力，实验表明其在多个多模态基准上表现优异。

Comments 32 pages

2605.07273 2026-05-11 cs.CV cs.AI

From Clouds to Hallucinations: Atmospheric Retrieval Hijacking in Remote Sensing Vision-Language RAG

Jiaju Han, Chao Li, Chengyin Hu, Qike Zhang, Xuemeng Sun, Xin Wang, Fengyu Zhang, Xiang Chen, Yiwei Wei, Jiahuan Long, Jiujiang Guo

AI总结本文研究了遥感多模态RAG系统中大气证据检索阶段的安全性问题，提出了一种名为CloudWeb的新型攻击方法，通过在输入图像上叠加参数化的云雾模式，引导检索器返回目标天气相关的虚假证据。该方法无需修改检索器、生成器或知识库，仅通过优化输入图像的嵌入向量，即可有效提升天气相关证据在检索结果中的排名。实验表明，CloudWeb在多个遥感数据集和检索模型上均表现出色，揭示了大气变化可能在生成前就破坏证据检索的潜在风险。

详情

英文摘要

Multimodal RAG systems increasingly rely on vision-language retrievers to ground visual queries in external textual evidence. Existing adversarial studies on RAG mainly manipulate the retrieval corpus or memory, while attacks on vision-language and remote sensing models typically target end-task predictions. Input-space threats to the evidence retrieval stage of remote sensing multimodal RAG remain underexplored. To address this gap, we introduce CloudWeb, an atmospheric retrieval hijacking attack that modifies only the input image while keeping the retriever, generator, and knowledge base fixed at deployment. CloudWeb overlays parameterized cloud- and haze-like patterns on remote sensing images and optimizes them with a retrieval-oriented objective that pulls adversarial image embeddings toward target atmospheric evidence, suppresses source-scene evidence, enforces rank separation, and regularizes naturalness and coverage. To the best of our knowledge, this is the first study of retrieval-stage atmospheric evidence hijacking in remote sensing multimodal RAG. We evaluate CloudWeb on a seven-dataset remote sensing RAG benchmark with five CLIP-style retrievers, including GeoRSCLIP, RemoteCLIP, OpenAI CLIP, and OpenCLIP, together with downstream vision-language generators. Across retrievers, CloudWeb consistently outperforms clean retrieval, handcrafted atmospheric baselines, random cloud perturbations, and fixed variants in injecting weather-related evidence into top-ranked results. On GeoRSCLIP ViT-B/32, Weather@5 increases from 0.71\% to 43.29\%. Downstream generation further shows measurable weather hallucination and semantic shift, indicating that retrieval-stage hijacking can propagate to the final RAG response. These findings reveal a practical failure mode: natural-looking atmospheric changes can compromise evidence retrieval before generation begins.

URL PDF HTML ☆

赞 0 踩 0

2605.07271 2026-05-11 cs.CL cs.AI

Understanding Performance Collapse in Layer-Pruned Large Language Models via Decision Representation Transitions

Boyu Shi, Chang Liu, ChuanBao Gao, Xu Yang, Xin Geng

AI总结本文研究了层剪枝导致大语言模型性能骤降的现象，提出通过决策表示来分析这一机制。作者引入了决策边距和选项频率两个指标，并设计了迭代剪枝方法，揭示了模型在决策过程中存在一个关键的决策过渡阶段，即从无法预测正确答案的“静默阶段”到能够正确预测的“决策阶段”。实验表明，剪枝对静默阶段的破坏是引发性能骤降的主要原因，而对决策阶段的剪枝影响较小，从而为理解与优化模型剪枝提供了新视角。

2605.07270 2026-05-11 cs.LG

bispectrum: Selective $G$-Bispectra Made Practical

Johan Mathe, Adele Myers, Simon Mataigne, Nina Miolane

AI总结该论文提出了一种名为 bispectrum 的开源 PyTorch 库，用于高效实现选择性 $G$-双谱，以处理在不同变换群作用下保持不变的机器学习任务。通过引入选择性计算，该方法显著降低了计算复杂度，并针对平面旋转和球面旋转分别优化了双谱计算，使其适用于深度学习架构中的池化层。实验表明，在低数据量和中等模型容量的情况下，使用 $G$-双谱作为池化层能显著优于传统方法。

2605.07269 2026-05-11 cs.CL cs.LG

MIPIAD: Multilingual Indirect Prompt Injection Attack Defense with Qwen -- TF-IDF Hybrid and Meta-Ensemble Learning

Al Muhit Muhtadi, Mostafa Rifat Tazwar

AI总结本文提出了一种名为MIPIAD的多语言间接提示注入攻击防御框架，结合了基于Qwen2.5-1.5B的LoRA微调分类器、TF-IDF词法特征以及通过晚融合、堆叠和梯度提升实现的元集成学习方法。该方法在包含143万样本的多语言合成基准上进行了评估，实验表明，集成方法在提升跨语言性能和检测效果方面表现优异，尤其在英文和孟加拉语场景中显著缩小了模型间的性能差距。该框架设计具有可扩展性，支持多种语言的防御应用。

2605.07268 2026-05-11 cs.CL

From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs

Hanmeng Liu, Shichao Weng, Xiulai Liu, Zhicai Zhang, Anli Yan, Xiaozhang Liu

AI总结该研究针对多选推理基准面临的问题，提出了一种名为LogiHard的框架，通过将零阶选择转化为二阶逻辑判断，显著增加了推理复杂度和步骤，从而更有效地评估前沿大语言模型的推理能力。该方法结合项目反应理论实现自适应测试，构建了包含高难度逻辑题的LogiHard-2k数据集，实验表明多个先进模型在该数据集上的准确率下降了31%至56%，揭示了模型在组合推理和多选任务中的缺陷。研究指出，这种性能下降源于训练过程中组合推理能力的不足，而非知识储备的缺失。

2605.07267 2026-05-11 cs.LG

PerCaM-Health: Personalized Dynamic Causal Graphs for Healthcare Reasoning

Elahe Khatibi, Ziyu Wang, Saba A. Farahani, Di Huang, Hung Cao, Ramesh Jain, Amir M. Rahmani

AI总结 PerCaM-Health 是一种用于医疗健康推理的个性化动态因果图学习框架，旨在解决现有方法在处理个体患者随时间变化的因果关系时存在的不足。该方法结合群体层面的因果知识与个体时间序列数据，通过保守适应和滚动更新机制生成可解释的动态因果图序列，并支持针对个体的反事实推理。实验表明，PerCaM-Health 在因果图恢复、动态边追踪和干预方向预测方面优于现有方法，展示了其在个性化医疗决策中的潜力。

2605.07264 2026-05-11 cs.CV

Sat3R: Satellite DSM Reconstruction via RPC-Aware Depth Fine-tuning

Qiaoyi Yang, Chaoyi Zhou, Xi Liu, Run Wang, Minghui Xu, Mert D. Pesé, Feng Luo, Yuhao Xu, Zhi-Qi Cheng, Qiushi Chen, Hairong Qi, Siyu Huang

AI总结本文提出了一种名为Sat3R的前馈框架，用于从卫星影像中高效重建数字地表模型（DSM）。该方法通过结合RPC模型的几何特性，利用尺度不变对数（SiLog）损失对Depth Anything V2模型进行度量深度微调，从而在无需逐场景优化的情况下，使单目深度基础模型适应卫星影像领域。实验表明，Sat3R在DFC2019基准测试中显著提升了重建精度，并相比优化方法实现了300倍以上的加速，为大范围卫星DSM重建提供了高效可行的解决方案。

2605.07260 2026-05-11 cs.LG cs.CL

When Are Experts Misrouted? Counterfactual Routing Analysis in Mixture-of-Experts Language Models

Youngsik Yoon, Siwei Wang, Wei Chen, Jungseul Ok

AI总结本文研究了混合专家（MoE）语言模型中专家路由策略的有效性，发现当前常用的top-$k$路由方式在处理需要复杂推理的脆弱token时可能选择次优专家，导致性能下降。通过对比标准路由与等计算量的替代路由，作者揭示了路由决策与token条件高度相关，并提出了一种仅更新最终路由层的简单方法，显著提升了模型在多项基准测试中的表现，表明路由策略的优化对模型性能具有重要影响。

2605.07257 2026-05-11 cs.CV

Adaptive Subspace Projection for Generative Personalization

Van-Anh Nguyen, Anh Tuan Bui, Tamas Abraham, Junae Kim, Amardeep Kaur, Rollin Omari, Thuy-Trang Vu, Dinh Phung

AI总结生成式个性化模型常面临语义坍缩问题（SCP），即学习到的个性化概念会压制文本提示中的其他内容，导致模型忽略重要的上下文细节。本文分析发现，SCP背后的语义漂移并非随机，而是集中于一个特定的低维子空间中，并提出了一种无需训练的适配子空间投影方法AdaptSP，通过在测试时调整嵌入，将语义漂移投影到该子空间进行精确修正，从而有效缓解SCP，同时保持主体身份不变。实验表明，该方法显著提升了提示的保真度和上下文对齐能力。

2605.07256 2026-05-11 cs.CV

TAS-LoRA: Transformer Architecture Search with Mixture-of-LoRA Experts

Jeimin Jeon, Hyunju Lee, Bumsub Ham

AI总结本文提出了一种名为 TAS-LoRA 的新型方法，用于解决视觉 Transformer（ViT）架构搜索中的特征坍塌问题。该方法引入低秩适配（LoRA）技术，使每个子网络能够学习特定的特征，同时保持计算效率，并采用混合 LoRA 专家（MoLE）策略，通过轻量级路由器动态分配专家模块，促进专家间的多样化特征学习。实验表明，TAS-LoRA 在多个基准数据集上显著提升了性能，优于现有最先进的架构搜索方法。

Comments Accepted to CVPR 2026

2605.07254 2026-05-11 cs.CV cs.GR

High-Fidelity Surface Splatting-Based 3D Reconstruction from Multi-View Images

Nandhana Sunil, Abhirami R Iyer, Avirup Mandal

AI总结本文研究了从多视角图像中进行高保真三维重建的问题，针对现有方法在几何细节重建上的不足，提出了一种基于表面点扩散的改进方法。核心方法引入了具有局部支持的紧凑多项式核函数，替代传统指数核以更好地控制频率内容，并结合拉普拉斯滤波的随机正则化以增强细节表现。该方法在保持优化稳定性的同时，显著提升了几何保真度和渲染质量，在表面重建和渲染任务中均达到了当前最优性能。

Comments 19 pages, 9 figures

2605.07253 2026-05-11 cs.CV

LENS: Low-Frequency Eigen Noise Shaping for Efficient Diffusion Sampling

Haewon Jeon, Si-Hyeon Lee

AI总结 LENS（低频特征噪声整形）是一种高效的扩散采样方法，旨在解决蒸馏扩散模型在减少去噪步骤时导致的图像质量下降问题。该方法通过在低维子空间中对噪声的低频分量进行选择性调制，实现了对图像整体结构和视觉保真度的有效控制。LENS采用轻量级网络进行噪声调制，显著降低了计算量和模型参数规模，实验表明其在保持图像质量的同时，大幅提升了采样效率。

Comments 27 pages, 7 figures

2605.07251 2026-05-11 cs.AI

Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning

Yuyang Wu, Yue Huang, Shuaike Shen, Xujian Wang, Shuhao Zhang, Qiyao Xue, Weichen Liu, Runtian Gao, Jian Ma, Xiangliang Zhang, Olexandr Isayev

AI总结本文研究了大型语言模型（LLMs）在化学反应成本估算任务中的表现，该任务要求代理从反应描述中识别化学品、检索供应商报价、选择可购买的包装规格并计算总成本。为此，作者构建了ChemCost基准，包含1,427个基于固定价格快照的可评估反应，支持对模型在不同阶段的错误进行诊断。实验表明，即使是最先进的化学专业模型，在干净输入下也只能达到50.6%的准确率，且在面对现实噪声时性能显著下降，揭示了模型在解析、证据整合和工具使用等方面仍存在明显不足。

Comments 9 pages, 5 figures

2605.07250 2026-05-11 cs.CV cs.AI

Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment

Zhixue Song, Boyan Han, Yiwei Wang, Chi Zhang

AI总结该研究揭示了多模态大语言模型（MLLM）在处理视觉压缩内容时存在的安全漏洞：当图像分辨率降低时，即使文本仍可读，模型的安全防御能力也会显著下降。研究认为这是由于“认知过载”效应，即模型在解析退化输入时消耗了过多注意力资源，从而削弱了安全审查能力。为解决这一问题，作者提出了一种“结构化认知卸载”策略，通过分离视觉转录与安全评估流程，有效缓解了这一风险，为未来安全设计的MLLM提供了重要启示。

Comments Accepted to Findings of ACL 2026

2605.07248 2026-05-11 cs.CL cs.LG

PaT: Planning-after-Trial for Efficient Test-Time Code Generation

Youngsik Yoon, Sungjae Lee, Seockbean Song, Siwei Wang, Wei Chen, Jungseul Ok

AI总结本文提出了一种名为PaT的适应性策略，用于提升大语言模型在测试阶段的代码生成效率。不同于传统的先规划后试错（PbT）方法，PaT仅在验证失败时才调用规划模块，从而减少不必要的计算开销。该方法结合了低成本模型进行代码生成和高性能模型进行针对性规划干预，实验表明其在多个基准测试中显著提升了成本与性能的平衡，相比同规模的单一模型，推理成本降低了约69%。

Comments Accepted to ACL 2026 main conference

2605.07247 2026-05-11 cs.AI

EnvSimBench: A Benchmark for Evaluating and Improving LLM-Based Environment Simulation

Yi Liu, TingFeng Hui, Wei Zhang, Li Sun, Ningxin Su, Jian Wang, Sen Su

AI总结 EnvSimBench 是一个用于评估和提升基于大语言模型（LLM）的环境模拟能力的基准测试平台。该研究指出，当前LLM在模拟环境反馈时存在幻觉、逻辑不一致和状态漂移等问题，影响了智能体训练的可靠性。为此，研究提出了环境模拟能力（EnvSim Ability）的量化定义，并构建了一个包含167个多样化环境、400个样本的严格基准，揭示了现有语言模型在多状态同步更新任务中的普遍失效现象，同时设计了一种约束驱动的模拟流程，显著提升了模拟效果并降低了成本。

详情

英文摘要

Scalable AI agents training relies on interactive environments that faithfully simulate the consequences of agent actions. Manually crafted environments are expensive to build, brittle to extend, and fundamentally limited in diversity. A promising direction is to replace manually crafted environments with LLM-simulated counterparts. However, this paradigm hinges on an unexamined core assumption: LLMs can accurately simulate environmental feedback. In practice, LLM-simulated environments suffer from hallucinations, logical inconsistencies, and silent state drift failures that corrupt agent reward signals and compound the construction costs that the paradigm was designed to eliminate. To address this gap, we propose EnvSimBench with four contributions: 1) We provide the first formal definition and operationalization of Environment Simulation Ability (EnvSim Ability) as a quantifiable research objective. 2) We construct EnvSimBench, a rigorous benchmark covering 400 samples across 167 diverse environments, equipped with verifiable labels and fine-grained difficulty stratification along three axes. 3) Systematic evaluations reveal that all state-of-the-art language models suffer from a universal state change cliff: they achieve near-perfect accuracy on tasks when the environment state remains invariant, yet fail catastrophically when multiple states need simultaneous updates. This finding exposes EnvSim Ability as a critical yet largely unaddressed capability gap. 4) We design a constraint-driven simulation pipeline that substantially reduces hallucination, boosts environment synthesis yield by 6.8%, and cuts costs by over 90%. Overall, EnvSimBench serves as both a diagnostic framework and a practical optimization path for reliable LLM-based environment simulation, establishing a foundation for scalable agent training. Code and data are available at https://github.com/cookieApril/EnvSimBench

URL PDF HTML ☆

赞 0 踩 0

2605.07244 2026-05-11 cs.LG cs.AI cs.CL

Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models

Xiaoze Liu, Dhananjay Ram, Yuting Zhang, Zhaoyang Zhang, Wei Xia, Stefano Soatto

AI总结本文提出了一种名为“互惠强化学习”的框架，用于异构大语言模型的并发强化学习微调，其中不同模型在保持各自参数、目标和分词器的前提下，通过类型化经验交换进行协作学习。该框架结合了共享经验交换、多工作节点资源分配以及分词器异构处理等关键技术，实现了跨模型家族的经验共享。研究通过三种受控实验验证了该方法的有效性，并分析了其在稳定性与支持性之间的结构位置，表明结果层面的经验共享在实际应用中具有明显优势。

Comments 50 pages, 10 figures, 14 tables

2605.07242 2026-05-11 cs.AI cs.CL

MEMOREPAIR: Barrier-First Cascade Repair in Agentic Memory

Yang Zhao, Chengxiao Dai, Mengying Kou, Yue Xiu

AI总结在智能体记忆系统中，当原始记忆内容被删除或更新后，其衍生的记忆内容可能仍然存在并影响后续行为，导致信息过时的问题。本文提出了一种名为 MEMOREPAIR 的方法，通过优先处理屏障状态，实现对智能体记忆中衍生内容的级联修复，从而有效消除过时记忆的影响。实验表明，MEMOREPAIR 能够在不增加过多修复成本的前提下，显著降低无效记忆的暴露比例，并恢复大量有效的后续记忆内容。

2605.07239 2026-05-11 cs.LG math.OC

Sample Complexity of Stochastic Optimization with Integer Variables

Hongyu Cheng, Yinghao Zheng, Marco Molinaro, Amitabh Basu

AI总结本文研究了整数变量在随机优化问题中的样本复杂度，旨在理解其与连续优化问题的复杂度差异。作者分析了不同目标函数和约束结构下整数优化所需的样本数量，发现其可能比连续优化需要更多或更少的样本。研究还建立了非凸连续随机优化的严格样本复杂度结果，并指出在强凸光滑目标下，整数优化的统计复杂度显著高于连续情形。

2605.07234 2026-05-11 cs.CL cs.AI

Reformulating KV Cache Eviction Problem for Long-Context LLM Inference

Tho Mai, Joo-Young Kim

AI总结在长上下文大语言模型推理中，键值缓存（KV Cache）的快速增长导致了显著的内存和运行时开销。本文将KV缓存淘汰问题重新表述为一种基于输出感知的层间矩阵乘法近似问题，提出了一种新的淘汰策略LaProx，该策略显式建模注意力图与投影值状态之间的乘法交互，准确量化每个token的贡献并考虑跨头依赖。实验表明，该方法在仅使用5%的KV缓存时仍能保持模型性能，并在多个基准数据集上优于现有方法。

2605.07232 2026-05-11 cs.CV

Towards multi-modal forgery representation learning for AI-generated video detection and localization

Dat Le, Khoa Nguyen, Xin Wang, Shu Hu

AI总结随着生成式AI的发展，AI生成视频的创建变得更加普遍，但这也带来了语义失真和滥用的风险。为了解决现有检测方法在多模态数据建模和细粒度时间伪造定位方面的不足，本文提出了一种融合语言模态、时空视觉模态和多尺度部分伪造音频模态的联合学习架构，实现了对部分篡改AI生成视频的检测与精确定位。实验表明，该方法在性能上优于现有先进方法。

2605.07230 2026-05-11 cs.CV cs.AI

CASCADE: Context-Aware Relaxation for Speculative Image Decoding

Selin Yildirim, Subhajit Dutta Chowdhury, Mohammad Mahdi Kamani, Vikram Appia, Deming Chen

AI总结 CASCADE 是一种用于图像生成的上下文感知松弛方法，旨在提升推测性解码的效率。该方法通过分析目标模型在树状推测解码中的隐藏状态冗余，提出了语义可交换性和收敛性两个特性，从而在无需额外训练的情况下实现对生成结果的合理放松。实验表明，CASCADE 在保持图像质量和文本提示保真度的同时，显著提升了解码速度，最高可达3.6倍加速。

2605.07222 2026-05-11 cs.LG

Don't Learn the Shape: Forecasting Periodic Time Series by Rank-1 Decomposition

Takato Honda

AI总结本文研究了如何以最少的参数预测周期性时间序列。作者提出了一种基于秩-1分解的方法FLAIR，通过固定每日形状并仅学习每日水平，实现了高效且准确的预测。实验表明，该方法在多个基准测试中表现优异，具有参数少、计算快、无需调参等优势。

Comments 9 pages main text + appendix. Code: https://github.com/TakatoHonda/FLAIR

2605.07221 2026-05-11 cs.CV

DINO-MVR: Multi-View Readout of Frozen DINOv3 for Annotation-Efficient Medical Segmentation

Wei Jiang, Feng Liu, Nan Ye, Hongfu Sun

AI总结本文提出了一种名为 DINO-MVR 的多视角读取框架，旨在提升标注高效型医学图像分割的性能。该方法利用冻结的 DINOv3 特征提取器，仅通过轻量级的 MLP 探针进行训练，避免了对主干网络的微调。通过多尺度和测试时增强的融合策略，DINO-MVR 在多个医学影像基准上取得了优异的分割效果，尤其在标注数据极少的情况下仍能保持高精度。

2605.07218 2026-05-11 cs.LG stat.ML

Improved Model-based Reinforcement Learning with Smooth Kernels

Kun Long, Yuqiang Li, Xianyi Wu

AI总结本文研究了连续状态-动作空间下的模型基于强化学习问题，提出了一种基于平滑核的改进方法，利用MDP的平滑性进行非参数核平滑估计。通过引入伯恩斯坦风格的探索奖励，该方法在有限时间范围内实现了比现有方法更优的遗憾界，其理论分析还提出了一个可能具有独立价值的新的伯恩斯坦型鞅浓度不等式。

Comments 38 pages, 5 figures