arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10941 2026-05-12 cs.CC

Average-Case Hardness of Binary-Encoded Clique in Proof and Communication Complexity

Susanna F. de Rezende, David Engström, Yassine Ghannane, Duri Andrea Janett, Artur Riazanov

AI总结本文研究了在平均情况下，证明图中不存在大团问题在证明复杂度和通信复杂度中的困难性。通过分析随机采样的稠密图的二进制编码团问题，作者证明了切割平面和有限深度的模2解证法的下界为指数级，并指出在这些公式中寻找被违反子句的随机通信复杂度为多项式级。这一结果揭示了在平均情况下，这类问题在不同计算模型中表现出显著的难度差异。

Comments Full version of a paper to appear at ICALP 2026

2605.10938 2026-05-12 cs.CL cs.AI cs.LG

ELF: Embedded Language Flows

Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

AI总结本文提出了一种名为ELF（Embedded Language Flows）的连续语言扩散模型，旨在解决当前主流离散扩散语言模型（DLMs）在生成质量与效率上的局限。ELF基于连续时间流匹配技术，在嵌入空间中进行建模，直到最终时间步才映射到离散词元，从而更有效地结合图像领域扩散模型的优化技术，如无分类器引导（CFG）。实验表明，ELF在生成质量与采样效率上均优于现有离散和连续DLMs，为构建高效的连续扩散语言模型提供了新方向。

Comments Tech Report. Project webpage: https://github.com/lillian039/ELF

2605.10937 2026-05-12 cs.CV

Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping

Haoyuan Sun, Jing Wang, Yuxin Song, Yu Lu, Bo Fang, Yifu Luo, Jun Yin, Pengyu Zeng, Miao Zhang, Tiantian Zhang, Xueqian Wang, Shijian Lu

AI总结本文研究了如何通过强化学习后训练进一步提升文本到图像生成模型的性能，并针对现有方法中奖励黑客问题提出了解决方案。作者指出标准化操作可能导致策略校准偏差，进而影响训练效果，为此提出了一种基于信息几何的超线性优势塑造方法（SLAS），通过引入优势依赖的权重对策略空间进行非线性重构，从而增强有效更新、抑制虚假梯度。实验表明，SLAS在多个模型和基准测试中均优于现有方法，提升了训练效率、泛化能力和生成质量。

2605.10936 2026-05-12 cs.CV

Personal Visual Context Learning in Large Multimodal Models

Zihui Xue, Ami Baid, Sangho Kim, Mi Luo, Kristen Grauman

AI总结随着智能眼镜等可穿戴设备将大 multimodal 模型（LMMs）融入用户的连续第一人称视觉流，这些模型要成为真正的个人助手，关键在于视觉个性化能力。本文提出个人视觉上下文学习（Personal VCL），旨在利用用户特定的视觉信息解决个性化查询，并构建了 Personal-VCL-Bench 作为评估基准。研究发现当前 LMMs 在利用视觉上下文方面存在显著差距，为此提出了一种名为 Agentic Context Bank 的推理时基线方法，通过结构化的记忆银行和查询自适应的证据选择，有效提升了模型在多任务中的表现。

Comments Project website: https://vision.cs.utexas.edu/projects/PersonalVCL/

2605.10934 2026-05-12 cs.LG cs.AI cs.CV cs.RO stat.ML

Variational Inference for Lévy Process-Driven SDEs via Neural Tilting

Yaman Kindap, Manfred Opper, Benjamin Dupuis, Umut Simsekli, Tolga Birdal

AI总结该论文研究了如何利用变分推断方法对由Lévy过程驱动的随机微分方程（SDEs）进行建模，以准确捕捉金融、气候等领域的极端事件和重尾现象。传统方法要么计算开销大，要么依赖高斯假设而无法处理跳跃特性。为此，作者提出了一种基于神经网络的指数倾斜框架，通过神经网络对Lévy测度进行指数加权，构建灵活的变分族，在保留跳跃结构的同时保证计算可行性。实验表明，该方法在合成和真实数据上均能有效捕捉跳跃动态，并在高斯变分方法失效的情况下提供可靠的后验推断。

Comments The associated project page which contains the official implementation can be found in https://circle-group.github.io/research/NeuralTilting/

2605.10931 2026-05-12 math.AP cs.LG math.DS

Quantifying Concentration Phenomena of Mean-Field Transformers in the Low-Temperature Regime

Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith

AI总结本文研究了在低温极限下，仅包含编码器的深度Transformer模型中token分布的演化行为，利用平均场连续方程对其进行描述。通过引入多粒子系统收敛分析的思想，论文证明了token分布会迅速集中到由键、查询和值矩阵诱导的投影映射所推动的初始分布上，并在中等时间尺度内保持亚稳态。研究还给出了Wasserstein距离随温度参数和推理时间的变化规律，并通过数值实验验证了理论结果，揭示了在有限温度和长时间演化下系统会进入由值矩阵谱主导的另一阶段。

Comments 30 pages, 10 figures

2605.10929 2026-05-12 math.NA cs.NA

Efficient Admissible Set Projection in Optimization-based Invariant-Domain-Preserving Limiters for Ideal MHD

Chen Liu, Chi-Wang Shu, Xiangxiong Zhang

AI总结本文研究了在理想磁流体动力学（MHD）方程的优化型不变域保持限制器中，如何高效地进行可接受集投影的问题。为实现物理合理且计算稳健的数值解，作者提出了一种基于优化的限制器，在保持全局守恒和精度的同时确保解的可接受性。通过将可接受集按磁能参数化为切片，将高维投影问题简化为一维最小化问题，从而高效求解，并结合分裂方法与Zhang-Shu限制器进一步提升计算效率与精度。

2605.10927 2026-05-12 cs.DS

Chasing Small Sets Optimally Against Adaptive Adversaries

Christian Coester, Alexa Tudose

AI总结本文研究了在度量空间中确定性在线算法追踪至多 $k$ 个元素集合的问题，该问题也被称为度量服务系统或宽度-$k$ 分层图遍历。作者提出了一种 $O(2^k)$ 竞争比的确定性算法，填补了该问题长达三十年的理论空白，并证明这一界在对抗自适应对手的随机化算法中也是最优的。此外，作者还改进了确定性下界，并针对 $k=3$ 的情况给出了匹配的上界，相关结果对分布式异步树探索和 $k$-出租车问题也具有重要意义。

Comments 32 pages

2605.10925 2026-05-12 cs.RO

PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

Xinyu Guo, Bin Xie, Wei Chai, Xianchi Deng, Tiancai Wang, Zhengxing Wu, Xingyu Chen

AI总结该研究提出了一种名为 PriorVLA 的新型框架，旨在在视觉-语言-动作（VLA）模型的下游任务适配中保留预训练的先验知识。该方法通过冻结预训练专家模型作为只读先验源，并训练一个适配专家模型进行任务特定学习，从而在保持广泛先验的同时实现有效适配。实验表明，PriorVLA 在多个基准和现实任务中均优于全微调和现有先进方法，尤其在分布外和少样本场景下表现突出。

Comments 32 pages. Project page: https://priorvla.github.io/

2605.10922 2026-05-12 cs.CV

Pixal3D: Pixel-Aligned 3D Generation from Images

Dong-Yang Li, Wang Zhao, Yuxin Chen, Wenbo Hu, Meng-Hao Guo, Fang-Lue Zhang, Ying Shan, Shi-Min Hu

AI总结 Pixal3D 是一种基于图像的高保真3D生成方法，旨在解决现有3D生成模型在像素级细节还原方面的不足。该方法通过引入像素级反投影条件机制，直接在输入视角下生成与像素对齐的3D几何结构，建立了明确的像素到3D特征的对应关系，从而显著提升了生成结果的保真度。此外，Pixal3D 还支持多视角生成和场景级合成，为从单张或多张图像生成高精度3D物体和场景提供了新的解决方案。

Comments SIGGRAPH 2026. Project page: https://ldyang694.github.io/projects/pixal3d/

2605.10921 2026-05-12 cs.RO

RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

Huashuo Lei, Wenxuan Song, Huarui Zhang, Jieyuan Pei, Jiayi Chen, Haodong Yan, Han Zhao, Pengxiang Ding, Zhipeng Zhang, Lida Huang, Donglin Wang, Yan Wang, Haoang Li

AI总结《RoboMemArena: 一个全面且具有挑战性的机器人记忆基准》提出了一种新的机器人记忆评估基准，旨在解决现有基准在多模态注释、任务覆盖和现实环境评估方面的不足。该基准包含26个任务，平均轨迹长度超过1000步，其中68.9%的子任务依赖记忆。研究还设计了PrediMem，一种结合视觉-语言模型的双系统架构，通过预测编码机制提升对任务动态的感知能力，实验表明其在复杂记忆任务中表现优异。

Comments Project website: https://robomemarena.github.io

2605.10920 2026-05-12 cs.SE

Using Logs to support Programming Education

Gilmar Gomes do Nascimento, Maria Claudia F. P Emer, Adolfo Gustavo Serra Seca Neto, Laudelino Cordeiro Bastos

AI总结本研究旨在通过分析编程学习过程中的实时代码日志，弥补编程教育中缺乏量化评估的不足。研究提出了一种新型插件，用于广泛使用的代码编辑器，以记录学生在编程和文档编写过程中的细粒度交互行为，生成包含错误、进度和时间戳的详细数据集。该方法为教育者提供了基于数据的学习分析工具，支持教学方法研究、学习难点识别和个性化教学改进，推动编程教育向数据驱动和实证化方向发展。

Comments Author version of the paper accepted for publication at XX Conferência Latino-Americana de Tecnologias de Aprendizagem - LACLO 2025

2605.10917 2026-05-12 cs.LG cs.MA cs.RO

Optimal and Scalable MAPF via Multi-Marginal Optimal Transport and Schrödinger Bridges

Usman A. Khan, Joseph W. Durham

AI总结本文研究匿名多智能体路径规划（MAPF）问题，将其建模为具有马尔可夫结构的多边际最优传输（MMOT）问题，并证明在该结构下原指数级规模的问题可简化为多项式规模的线性规划（LP）。通过引入薛定谔桥的概率框架，作者提出了一种基于熵正则化的迭代解法，能够在保证近似最优性的同时显著降低计算复杂度。实验表明，该方法在保持解的质量方面具有优越的可扩展性。

Comments Accepted in ICML 2026 as a spotlight paper

2605.10912 2026-05-12 cs.CL

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding, Ziyu Liu, Yang JingYi, Penghui Yang, Zhixiong Zhang, Xilin Wei, Xinyu Fang, Yubo Ma, Haodong Duan, Jing Shao, Jiaqi Wang, Dahua Lin, Kai Chen, Yuhang Zang

AI总结 WildClawBench 是一个用于评估真实环境中长期任务执行能力的基准，包含60个由人类编写的双语多模态任务，涵盖六个主题类别。该基准在可复现的Docker容器中运行，使用真实的命令行代理框架和工具，任务平均耗时约8分钟，涉及20次以上工具调用。评估方法结合了规则检查、环境状态审计和大模型语义判断，结果显示当前前沿模型在真实运行时的长期任务表现仍有较大提升空间。

Comments Github link: https://github.com/internlm/WildClawBench

2605.10911 2026-05-12 math.PR cs.CC cs.DS math.CO math.ST stat.TH

The stochastic block model has the overlap graph property for modularity

Shankar Bhamidi, David Gamarnik, Remco van der Hofstad, Nelly Litvak, Pawel Pralat, Fiona Skerman, Yasmin Tousinejad

AI总结本文研究了随机块模型（SBM）中基于模块度的聚类算法的理论极限，指出模块度在SBM中具有重叠间隙性质（OGP）。这一性质表明，基于模块度的局部算法在恢复隐藏的社区结构时存在困难，并且相关马尔可夫链的混合时间较慢。该研究扩展了Bickel和Chen的结论，证明了在高概率下，任何接近最优模块度的划分都与隐藏的社区划分接近，为理解SBM中算法性能的瓶颈提供了理论依据。

Comments 28 pages, 2 figures

2605.10910 2026-05-12 quant-ph cs.LG

Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis

Richie Yeung, Aleks Kissinger, Rob Cornish

AI总结本文研究了在全连接量子器件上合成克利福德量子线路的问题，将其建模为强化学习任务，通过学习一系列基本克利福德门将给定的辛矩阵表示简化为单位矩阵。提出了一种对量子比特重标等操作具有等变性的新型神经网络架构，能够适用于不同规模的量子系统，无需重新参数化网络。实验表明，该方法在六量子比特线路中接近最优解，并能扩展到三十量子比特的未知克利福德表，其两量子比特门数量优于现有的合成方法。

2605.10909 2026-05-12 cs.LG stat.ML

Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients

Alex DeWeese, Guannan Qu

AI总结本文重新审视了在受限策略类中使用的标准策略梯度方法，发现其容易陷入次优临界点，主要原因在于策略梯度本身具有短视性，仅依赖于一步Q函数进行优化。为此，作者提出了一种基于$k$-步策略梯度的通用方法，通过结合$k$步时间窗口内的随机性，能够逃离受限策略类中的短视局部最优解。理论分析表明，该方法在性能上可以指数级接近最优确定性策略，并且在仅假设价值函数光滑可微的前提下，投影梯度下降和镜像下降方法能在$O(1/T)$次迭代内实现这一保证，适用于状态聚合和部分可观测协作多智能体等之前难以求解的问题。

2605.10904 2026-05-12 cs.RO

MDrive: Benchmarking Closed-Loop Cooperative Driving for End-to-End Multi-agent Systems

Marco Coscoy, Zewei Zhou, Seth Z. Zhao, Henry Wei, Angela Magtoto, Johnson Liu, Rui Song, Walter Zimmer, Zhiyu Huang, Chen Tang, Bolei Zhou, Jiaqi Ma

AI总结本文提出MDrive，一个用于端到端多智能体系统的闭环协作驾驶基准，旨在解决现有V2X基准在闭环评估和场景多样性方面的不足。该基准基于NHTSA预碰撞类型和真实V2X数据构建了225个场景，实验表明多智能体系统在整体表现上优于单智能体系统，但在感知共享和协商机制在复杂交通场景中的效果仍有挑战。MDrive还提供了开源工具箱，支持场景生成、现实到模拟转换及人机协同仿真，为评估和提升协作驾驶系统的泛化性和鲁棒性提供了可复现的基础。

Comments website:https://mdrive-challenge.github.io/

2605.10903 2026-05-12 cs.CV cs.RO

CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

Wenxuan Song, Han Zhao, Fuhao Li, Ziyang Zhou, Xi Wang, Jing Lyu, Pengxiang Ding, Yan Wang, Donglin Wang, Haoang Li

AI总结本文提出了一种新的方法，解决预训练视觉-语言-动作（VLA）模型在标准监督微调过程中性能提升有限且适应成本高的问题。该方法通过在参数空间中解耦辅助目标微调的两个目标——增强通用能力和拟合任务特定动作分布，并利用两种不同的训练策略在小规模任务集上训练出两个微调模型，从而提取出由辅助目标提供的能力向量。将这些能力向量与预训练参数结合形成增强能力的元模型，并引入轻量正交正则化损失，使模型在保持高性能的同时显著降低计算开销。实验表明，该方法在多种模型和新环境中均具有良好的有效性和泛化能力。

2605.10901 2026-05-12 cs.LG

Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers

Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

AI总结该研究旨在为语言模型的防护分类器提供形式化保证，以确保其能有效防御有害行为。传统方法在离散输入空间中难以定义“有害行为”的形式化规范，因此作者将验证转移到分类器的预激活空间，通过构造凸区域并利用分类头的单调性，实现了高效且无近似的形式化证明。实验表明，现有防护分类器在形式化验证下存在可验证的安全漏洞，揭示了其在实际应用中可能存在的稳定性与覆盖范围问题。

详情

英文摘要

Guardrail Classifiers defend production language models against harmful behavior, but although results seem promising in testing, they provide no formal guarantees. Providing formal guarantees for such models is hard because "harmful behavior" has no natural specification in a discrete input space: and the standard epsilon-ball properties used in other domains do not carry semantic meaning. We close this gap by shifting verification from the discrete input space to the classifier's pre-activation space, where we define a harmful region as a convex shape enclosing the representations of known harmful prompts. Because the sigmoid classification head is monotonic, certifying the worst-case point is sufficient to certify the entire region, yielding a closed-form soundness proof without approximation in O(d) time. To formally evaluate these classifiers, we propose two constructions of such regions: SVD-aligned hyper-rectangles, which yield exact SAT/UNSAT certificates, and Gaussian Mixture Models, which yield probabilistic certificates over semantically coherent clusters. Applying this framework to three author-trained Guardrail Classifiers on the toxicity domain, every hyper-rectangle configuration returns SAT, exposing verifiable safety holes across all classifiers, despite seemingly high empirical metrics. Probabilistic GMM certificates also expose a divergent structural stability in how these models represent harm. While GPT-2 and Llama-3.1-8B maintain robust coverage of 90% and 80% across varying boundaries, BERT's safety guarantees prove uniquely volatile. This 'coverage collapse' to 55% at the optimal threshold reveals a sparsely populated safety margin in BERT, which only achieves full coverage by adopting an extremely conservative pessimistic threshold. These approaches combined, provide new insights on how effective Guardrail Classifiers really are, beyond traditional red-teaming.

URL PDF HTML ☆

赞 0 踩 0

2605.10900 2026-05-12 cs.GT

Effective, Efficient, and General Information Abstraction for Imperfect-Information Extensive-Form Games

Boning Li, Longbo Huang

AI总结该研究提出了一种名为WEVA的信息抽象方法，用于降低解决不完美信息博弈的计算成本。该方法通过少量的反事实遗憾最小化（CFR）迭代生成每手牌的期望值特征，结合深度加权的多节点特征向量，使用k-means++聚类实现信息集的抽象，无需领域知识和预训练。实验表明，WEVA在多种结构不同的博弈中均优于基于权益和排名的传统方法，显著提升了求解效率并降低了策略可被利用的程度。

Comments 17 pages, 6 figures

2605.10899 2026-05-12 cs.CL cs.LG

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister

AI总结本文提出 RubricEM，一种基于评分标准引导的元强化学习框架，旨在解决深度研究智能体在缺乏明确奖励信号下的训练问题。该方法通过将研究过程分解为多个阶段，并结合基于反思的元策略进化，实现了对长期任务的高效优化。RubricEM 通过结构化的评分标准提供更精细的反馈，并将评估经验转化为可复用的指导，显著提升了智能体在长文本生成等复杂任务中的表现。

Comments 63 pages, 6 figures

2605.10898 2026-05-12 cs.HC

How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy

Haidan Liu, Isabelle Kwan, Taiga Okuma, Jeffrey Loverock, Nicholas Vincent, Parmit K Chilana

AI总结本研究探讨了创作者在使用生成式AI图像工具时的学习方式与支持需求，发现他们常通过自我实验或教程来探索工具，但常因术语混乱而感到困扰。研究还揭示了创作者在接受结构化指导与保持创作自主性之间的张力，尽管指导有助于理解AI，但许多创作者仍更倾向于自我实验以维护创作自由。这一发现为设计更符合创作者需求的AI辅助工具提供了重要参考。

Comments Accepted at ACM Creativity & Cognition 2026

2605.10895 2026-05-12 cs.DS cs.CG

FPT Approximation Schemes for Min-Sum Radii and Min-Sum Diameters Clustering

Fabrizio Grandoni, Anupam Gupta, Jatin Yadav

AI总结本文研究了经典的最小和半径聚类（MSR）和最小和直径聚类（MSD）问题，旨在将点集划分为若干簇以最小化各簇半径或直径之和。作者提出了针对这两个问题的参数化近似算法，针对参数 $k$ 提供了固定参数可追踪（FPT）的近似方案，能够在较优的时间复杂度内实现任意精度的近似解。该成果解决了这两个问题在FPT近似算法方面长期存在的开放性难题，是该领域的重要进展。

2605.10894 2026-05-12 cs.CV

Counterfactual Stress Testing for Image Classification Models

Moritz Stammel, Fabio De Sousa Ribeiro, Raghav Mehta, Mélanie Roschewitz, Ben Glocker

AI总结本文研究了医学影像分类模型在新临床环境中因分布偏移而失效的问题，提出了一种基于因果生成模型的反事实压力测试框架，通过干预扫描仪类型、患者性别等属性生成具有临床真实性的“假设”图像，从而在保持解剖结构不变的前提下，进行有针对性的分布偏移评估。实验表明，该方法相比传统扰动方法能更准确地反映模型在真实分布外场景下的性能变化，为医学AI系统的鲁棒性评估提供了更可靠的基础。

2605.10890 2026-05-12 cs.SE

CppPerf: An Automated Pipeline and Dataset for Performance-Improving C++ Commits

Tommy Ho, Khashayar Etemadi, Zhendong Su

AI总结为满足性能错误自动修复领域对真实可执行基准的需求，研究提出了CppPerf-Mine，一个可配置的自动化流程，用于从GitHub上的开源C++仓库中挖掘能提升运行时间的补丁。该流程结合了结构化提交过滤、基于大语言模型的提交分类器以及容器化的构建与测试阶段，生成可复现的Docker镜像。基于该流程构建了包含347个手动验证补丁的CppPerf-DB基准库，其中39%为多文件补丁，可用于评估仓库级别的修复工具。初步实验表明，现有工具OpenHands仅能正确修复其中13.5%的补丁，凸显出真实世界C++性能修复仍面临挑战。

2605.10889 2026-05-12 cs.LG cs.AI

Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why

Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

AI总结本文研究了策略蒸馏在训练推理模型中的作用机制，探讨了在何种情况下蒸馏信号是有益的、在何种情况下是有害的。作者提出了一种无需训练的诊断框架，能够在每个标记、每个问题和每个教师模型的粒度上分析蒸馏效果，并通过梯度对齐分数衡量实际蒸馏梯度与理想梯度的接近程度。实验表明，蒸馏信号在学生模型表现不佳时更有效，而在正确推理路径上容易引入噪声，且最佳蒸馏配置依赖于任务和模型能力，不存在普适的最优方案。

2605.10887 2026-05-12 cs.CV

Count Anything at Any Granularity

Chang Liu, Haoning Wu, Weidi Xie

AI总结本文研究了开放世界物体计数中的细粒度计数问题，指出当前方法因未明确计数粒度而导致计数可靠性不足。为此，作者提出了多粒度计数框架，通过视觉示例和细粒度文本描述明确指定计数目标，并构建了首个自动化的数据增强管道，生成了目前最大的细粒度计数数据集KubriCount。基于该数据集，作者进一步训练了HieraCount模型，显著提升了细粒度计数的准确性和实际场景的泛化能力。

Comments Project page: https://verg-avesta.github.io/KubriCount/

2605.10885 2026-05-12 cs.CV

Geometry-aware Prototype Learning for Cross-domain Few-shot Medical Image Segmentation

Feifan Song, Yuntian Bo, Haofeng Zhang

AI总结跨域小样本医学图像分割（CD-FSMIS）旨在仅凭少量标注样本，使模型同时适应新的解剖类别和未见过的成像领域。现有基于原型的方法往往将解剖结构与领域特定的外观变化混杂在一起，导致在领域变化下难以实现稳定匹配。本文提出GeoProto框架，通过引入几何感知的原型增强机制，利用人体解剖结构的几何先验信息，提升原型匹配的鲁棒性与泛化能力，并在多个跨模态、跨序列和跨场景的数据集上取得了最先进的性能。

2605.10880 2026-05-12 cs.RO

Safe Aerial 3D Path Planning for Autonomous UAVs using Magnetic Potential Fields

Haechan Mark Bong, Giovanni Beltrame

AI总结本文研究了如何在城市环境中实现自主无人机的安全三维路径规划问题。提出了一种基于麦克斯韦方程性质的磁势场方法——3DMaxConvNet，利用卷积自编码器从激光雷达生成的三维体素网格中预测避障势场，从而生成无局部极小值的路径。实验表明，该方法在两个不同的城市环境中均实现了100%的路径规划成功率，并在运行时间和路径质量方面优于传统算法如A*和RRT*。