arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12332 2026-05-13 cs.AI

Towards Automated Air Traffic Safety Assessment Around Non-Towered Airports Using Large Language Models

Torsten Darrell, Mahyar Ghazanfari, Jordan Kam, Alexandre Bayen, Amin Tabrizian, Peng Wei

AI总结本文研究利用大语言模型（LLM）对非塔台机场的飞行后安全分析框架，旨在提升这类机场的空中交通安全评估能力。研究结合了CTAF通信记录、气象数据、ADS-B飞行轨迹和目视飞行规则图，提出了一种通用的视觉-语言模型方法，用于识别潜在的安全隐患。通过实际案例分析和合成数据集的评估，验证了该方法在识别飞行优先权违规等危险情况中的有效性，为未来自动化安全评估提供了可行的技术路径。

Comments 25 pages, 17 figures, 5 tables, Accepted to AIAA 2026

2605.12328 2026-05-13 cs.CL

A categorical error sensitivity index (ISEC): A preventive ordinal decision-support measure for irrecoverable errors in manual data entry systems

Ricardo Raúl Palma, Mauro Anibal Benetti, Fabricio Orlando Sanchez Varretti

AI总结手动数据输入系统在面对类别误分类时仍存在结构性脆弱性，尤其在中小型企业中，由于类别间语义或形态相近，容易导致不可逆的错误，进而影响关键绩效指标并误导管理决策。本文提出了一种新的类别错误敏感性指数（ISEC），通过结合语义距离、形态转换成本和实际使用频率，构建了一个统一的预防性评估框架，有效提升了错误风险的识别效率。ISEC利用向量数据库架构大幅降低计算复杂度，并在多个异构数据集上验证了其有效性，为中小型企业提供了可扩展的数据治理工具。

Comments 15 pages, 4 figures

2605.12327 2026-05-13 cs.LG

Grid Games: The Power of Multiple Grids for Quantizing Large Language Models

Vage Egiazarian, Erik Schultheis, Andrei Panferov, Earl Killian, Torsten Hoefler, Dan Alistarh

AI总结本文研究了通过使用多个4位浮点网格来提升大语言模型量化效果的方法，提出了一种称为“功率二网格”（PO2）的量化策略，允许每个值组选择更适合的网格进行量化。实验表明，这种方法在中小规模值组上能显著提升量化精度，而在大规模值组上优势减弱。通过多种网格配置的实例验证，PO2方法在模型微调和预训练任务中均表现出优于单一网格量化方案的性能。

Comments Preprint

2605.12316 2026-05-13 cs.LG

Autoregressive Learning in Joint KL: Sharp Oracle Bounds and Lower Bounds

Yunbei Xu, Yuzhe Yuan, Ruohan Zhan

AI总结本文研究了在模型误设条件下，使用联合KL散度度量的自回归模型和下一个token预测中，序列长度对近似误差和估计误差的影响。通过建立匹配的上界和下界，作者首次完整刻画了长序列误差行为，并改进了现有工作的收敛速率与最优性分析。研究揭示了联合KL散度在近似误差上具有与序列长度无关的优势，同时证明了序列长度对估计误差的下界为Ω(H)，与高效算法的上界一致，从而统一了训练目标、评估指标和近似度量之间的关系。

2605.12313 2026-05-13 cs.CL cs.IR

Overview of the MedHopQA track at BioCreative IX: track description, participation and evaluation of systems for multi-hop medical question answering

Rezarta Islamaj, Joey Chan, Robert Leaman, Jongmyung Jung, Hyeongsoon Hwang, Quoc-An Nguyen, Hoang-Quynh Le, Harikrishnan Gurushankar Saisudha, Ganesh Chandrasekar, Rustam R. Taktashov, Nadezhda Yu. Bizyukova, Sofia I. R. Conceição, Paulo R. C. Lopes, Reem Abdel Salam, Mary Adewunmi, Zhiyong Lu

AI总结 BioCreative IX 的 MedHopQA 共享任务旨在评估大型语言模型在多跳医学问答中的推理能力，提出了包含1000个复杂问答对的新型数据集，每个问题需结合两个不同维基页面的信息进行两跳推理，特别关注罕见疾病相关问题。任务吸引了13支队伍的48次提交，结果表明基于检索增强生成（RAG）等策略的系统显著优于基线模型，最佳系统在概念准确度（MedCPT）和精确匹配（EM）指标上分别达到89.30%和87.30%。该数据集已公开，以推动医学多跳问答领域的发展。

2605.12312 2026-05-13 cs.LG cs.AI

Transferable Delay-Aware Reinforcement Learning via Implicit Causal Graph Modeling

Chenran Zhao, Dianxi Shi, Yaowen Zhang, Chunping Qiu, Shaowu Yang

AI总结本文研究了在存在随机延迟的跨任务强化学习场景中，如何提高策略的可迁移性和适应性。为了解决延迟导致的动作与状态反馈时间错位以及任务目标变化带来的知识复用困难，作者提出了一种基于隐式因果图建模的可迁移延迟感知强化学习方法。该方法通过场节点编码器将高维观测转化为具有节点语义的潜在状态，并利用消息传递机制学习节点间的动态因果依赖关系，从而获得可迁移的结构化表示和环境动态知识，有效提升了跨任务学习的效率与性能。

2605.12310 2026-05-13 cs.SD

Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

Chen Geng, Meng Chen, Ruohua Zhou, Ruolan Liu, Weifeng Zhao

AI总结本文提出了一种名为 Poly-SVC 的多声部感知歌唱语音转换系统，旨在在保留歌词和旋律的前提下，将源歌手的歌声转换为目标歌手的声音。该方法创新性地处理了伴奏录音中的残余和声问题，通过基于常数 Q 变换的音高提取器、随机采样器以及基于条件流匹配的扩散解码器，实现了对旋律与和声特征的融合，从而生成自然且富有表现力的多声部输出。实验表明，Poly-SVC 在自然度、音色相似性和和声重建方面均优于现有基线模型。

Comments Accepted by ICASSP 2026

2605.12308 2026-05-13 cs.LG

In-context learning to predict critical transitions in dynamical systems

Yunus Sevinchan, Juan Nathaniel, Kai Ueltzhöffer, Carla Roesch, Tobias Weber, Vaios Laschos, Hang Fan, Gregor Ramien, Johannes Haux, Pierre Gentine, Benjamin Herdeanu

AI总结该研究旨在解决动态系统中临界转变的早期预警问题，这类转变通常具有突发性和不可逆性，且在现实世界中观测数据稀缺。为此，作者提出了一种基于上下文学习的深度学习框架TipPFN，通过合成数据生成器训练模型，使其能够灵活适应不同规模、复杂度和维度的上下文信息。该方法在未见过的临界转变场景、仿真到现实案例以及真实观测数据中均表现出先进的早期检测能力，为构建可靠的预警系统提供了新思路。

Comments 14+38 pages, 5+23 figures

2605.12306 2026-05-13 cs.LG cs.AI cs.CV

KAN-CL: Per-Knot Importance Regularization for Continual Learning with Kolmogorov-Arnold Networks

Minjong Cheon

AI总结本文提出了一种名为KAN-CL的持续学习框架，旨在解决任务间参数干扰导致的灾难性遗忘问题。该方法利用Kolmogorov-Arnold网络（KAN）的紧支撑样条参数化特性，在每个样条节点层面进行重要性加权锚定，从而实现更精细的参数正则化。实验表明，KAN-CL在多个基准数据集上显著降低了遗忘率，同时保持了较高的分类精度，并通过神经切线核分析进一步揭示了其理论优势。

2605.12305 2026-05-13 cs.CV

Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation

Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang

AI总结该研究针对多模态语言模型在处理复杂交错指令时生成图像的性能不足问题，提出了一种统一的视觉生成模型INSET，将图像作为文本指令中的原生词汇嵌入，从而更精确地匹配描述与视觉目标。通过引入可扩展的数据引擎生成大量高质量交错样本，并在多项任务中展现出优于现有方法的多图像一致性和文本对齐能力，同时支持多模态图像编辑等扩展应用。

2605.12301 2026-05-13 cs.LG math.ST stat.TH

Approximation of Maximally Monotone Operators : A Graph Convergence Perspective

Takashi Furuya, Yury Korolev, Takaharu Yaguchi

AI总结该论文研究了如何通过图收敛方法对极大单调算子进行逼近，这类算子在数学和机器学习中具有重要应用。传统上的均匀或 $L^p$ 近似方法在处理此类算子时存在局限，作者提出利用图收敛（Painlevé-Kuratowski 收敛）作为逼近框架，证明了任何极大单调算子均可通过编码-解码结构进行局部图收敛逼近，并构建了保持极大单调性质的结构化近似方法。这一成果为处理不连续或集值算子的算子学习提供了新的理论基础和方法。

2605.12299 2026-05-13 cs.CL

GKnow: Measuring the Entanglement of Gender Bias and Factual Gender

Leonor Veloso, Hinrich Schütze

AI总结该研究提出了一种名为GKnow的基准，用于评估语言模型在不同性别相关预测任务中的性别知识和性别偏见。研究发现，性别偏见与事实性性别在神经网络的电路和单个神经元层面高度纠缠，导致神经元消融等去偏方法效果不可靠。GKnow有助于识别和分析负责性别预测的模型组件，并揭示现有性别偏见评估基准可能掩盖事实性性别知识下降的问题。

Comments Accepted to ACL 2026

2605.12297 2026-05-13 cs.CV cs.RO eess.IV

EgoEV-HandPose: Egocentric 3D Hand Pose Estimation and Gesture Recognition with Stereo Event Cameras

Luming Wang, Hao Shi, Jiajun Zhai, Kailun Yang, Kaiwei Wang

AI总结本文提出EgoEV-HandPose，一种基于立体事件相机的端到端框架，用于解决第一人称视角下的3D双手姿态估计与手势识别问题。核心方法KeypointBEV通过将特征提升至统一的鸟瞰视角，并结合迭代重投影引导的优化循环，有效解决了深度不确定性与运动模糊问题。同时，研究还发布了首个大规模真实场景立体事件相机数据集EgoEVHands，显著提升了低光和双手遮挡场景下的性能，为事件相机在第一人称感知领域的发展提供了新基准。

Comments Extended version of SMC 2025 paper arXiv:2503.12419. The established dataset and source code will be publicly released at https://github.com/ZJUWang01/EgoEV-HandPose

2605.12294 2026-05-13 cs.AI

Executable Agentic Memory for GUI Agent

Zerui Qin, Sheng Yue, Xingyuan Hua, Yongjian Fu, Ju Ren

AI总结本文提出了一种名为可执行智能体记忆（EAM）的新方法，用于提升图形用户界面（GUI）智能体在长期任务中的稳定性和效率。EAM 通过构建结构化的知识图谱，将自由生成的规划过程转化为基于检索与执行的流程，并结合状态感知的深度优先搜索和动作分组挖掘技术，实现高效的记忆构建。此外，引入基于价值引导的图搜索机制，利用轻量级Q函数模型指导蒙特卡洛树搜索，从而在保证规划效率的同时，显著提升了任务执行的成功率与成本效益。

2605.12292 2026-05-13 cs.LG

STRABLE: Benchmarking Tabular Machine Learning with Strings

Gioia Blayer, Myung Jun Kim, Félix Lefebvre, Lennart Purucker, Alan Arazi, Eilam Shapira, Roi Reichart, Frank Hutter, Marine Le Morvan, David Holzmüller, Gaël Varoquaux

AI总结该论文提出了STRABLE，一个包含108个真实应用场景表格的基准数据集，用于评估包含字符串和数值的表格机器学习方法。研究探讨了在表格数据中是否需要专门处理字符串的模型，或是将其编码为数值即可，并比较了不同处理方式的效果。实验表明，针对以分类变量为主的表格，使用简单字符串嵌入与先进表格学习模型结合即可取得良好效果，而以自由文本为主的表格则更适合使用大型语言模型编码。STRABLE为字符串表格学习提供了可靠的基准，有助于推动该领域研究。

2605.12290 2026-05-13 cs.LG

Targeted Neuron Modulation via Contrastive Pair Search

Sam Herring, Jake Naviasky, Karan Malhotra

AI总结该研究探讨了语言模型如何通过指令微调拒绝有害请求的机制，并提出了一种名为对比神经元归因（CNA）的新方法，能够识别出少量关键神经元，这些神经元在区分有害和无害提示中起关键作用。实验表明，通过干预这些神经元可以有效降低模型的拒绝率，同时保持输出质量，而基础模型则缺乏这种可干预的拒绝机制。研究揭示了对齐微调如何将原有的判别结构转化为可操控的拒绝门控，为行为调控提供了更可靠的方法。

2605.12289 2026-05-13 cs.LG cs.AI

PriorZero: Bridging Language Priors and World Models for Decision Making

Junyu Xiong, Yuan Pu, Jia Tang, Yazhe Niu

AI总结本文提出了一种名为 PriorZero 的统一框架，旨在将大型语言模型（LLM）的语言先验知识与基于世界模型的规划相结合，以提升强化学习代理在长期任务中的决策能力。该方法通过解耦的 rollout-训练设计，将 LLM 的概念先验仅注入蒙特卡洛树搜索（MCTS）的根节点，从而在保持世界模型深度前瞻能力的同时，引导搜索向语义上有潜力的动作聚焦。实验表明，PriorZero 在多个基准任务中显著提升了探索效率和最终性能，为基于 LLM 的决策制定提供了一个有前景的框架。

Comments 30 pages, 12 figures

2605.12282 2026-05-13 cs.CV

Large-Small Model Collaboration for Farmland Semantic Change Detection

Xinjia Li, Rui Wang, Qiurong Peng, Lingfei Ye, Dengrong Zhang, Haoyu Zhang

AI总结本文针对精细农田语义变化检测（SCD）中存在的标注不足和伪变化干扰问题，构建了一个大规模细粒度农田变化检测基准HZNU-FCD，并提出了一种大模型与小模型协作的检测框架。该框架结合了任务驱动的小型视觉模型FD-Mamba和冻结的大型视觉-语言模型，通过跨模态逻辑仲裁和硬区域协同训练策略，有效提升了边界保持和小区域变化检测的精度。实验表明，该方法在多个数据集上均取得了优异的性能，展现出良好的鲁棒性和泛化能力。

详情

英文摘要

Farmland Semantic Change Detection (SCD) is essential for cultivated land protection, yet existing benchmarks and models remain insufficient for fine-grained farmland conversion monitoring. Current datasets often lack dedicated "from-to" annotations, while visual change detection models are easily disturbed by phenology-induced pseudo-changes caused by crop rotation, seasonal variation, and illumination differences. To address these challenges, we construct HZNU-FCD, a large-scale fine-grained farmland SCD benchmark with a unified five-class farmland-to-non-farmland annotation protocol. It contains 4,588 bitemporal image pairs with pixel-level labels for practical farmland protection. Based on this benchmark, we propose a large-small collaborative SCD framework that integrates a task-driven small visual model with a frozen large vision-language model. The small model, Fine-grained Difference-aware Mamba (FD-Mamba), learns dense change representations for boundary preservation and small-region localization. The large-model pathway, Cross-modal Logical Arbitration (CMLA), introduces CLIP-based textual priors for prompt-guided semantic arbitration and pseudo-change suppression. To enable effective collaboration, we design a hard-region co-training strategy that supervises the CMLA semantic score map only on low-confidence pixels. Experiments show that our method achieves 97.63% F1, 96.32% IoU, and 96.35% SCD_IoU_mean on HZNU-FCD with only 6.65M trainable parameters. Compared with the multimodal ChangeCLIP-ViT, which leverages vision-language information for change detection, our method improves F1 by 10.19 percentage points on HZNU-FCD. It also achieves 91.43% F1 and 84.21% IoU on LEVIR-CD, and 93.85% F1 and 88.41% IoU on WHU-CD, demonstrating strong robustness and generalization. The code is available at https://github.com/Lovelymili/FD-Mamba.

URL PDF HTML ☆

赞 0 踩 0

2605.12281 2026-05-13 cs.CL cs.LG

What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty

Jonas Mayer Martins, Zhuojing Huang, Aaricia Herygers, Lisa Beinborn

AI总结本研究探讨了英语词汇对以西班牙语、德语或汉语为母语的学习者而言为何难以掌握，并计算建模了词汇难度，考虑了词汇的熟悉度、语义、表层形式及跨语言迁移等因素。通过Shapley值分析，发现词汇熟悉度是所有三类学习者共通的主要影响因素，而西班牙语和德语学习者还受到正字法迁移的影响，而汉语学习者则主要依赖熟悉度和表层特征。该模型提供了可解释的、针对不同母语背景的学习者定制化的词汇难度评估，有助于设计更有效的词汇教学方案。

Comments Submitted to BEA 2026 at ACL. 18 pages, 13 figures

2605.12278 2026-05-13 cs.LG

Hypernetworks for Dynamic Feature Selection

Javier Fumanal-Idocin, Raquel Fernandez-Peralta, Javier Andreu-Perez

AI总结本文研究了动态特征选择（DFS）框架中的结构限制，并提出了一种基于超网络的新型方法Hyper-DFS，该方法能够按需生成特定特征子集的分类器参数，从而在保证泛化性能的同时降低结构复杂度。通过引入Set Transformer编码，Hyper-DFS还构建了平滑的条件空间，使功能相似的任务在几何上更接近。实验表明，Hyper-DFS在合成数据、真实表格数据以及多个图像数据集上均优于现有方法，并在未见过的特征子集上展现出更强的零样本泛化能力。

2605.12276 2026-05-13 cs.AI

NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous Geoentities

Jina Kim, Gengchen Mai, Lingyi Zhao, Khurram Shafique, Yao-Yi Chiang

AI总结该研究提出了一种名为NARA的自监督学习框架，用于处理异构矢量地理实体的数据，旨在解决现有方法在统一建模几何、语义和空间关系方面的不足。NARA通过联合建模语义、几何结构和空间关系，实现了对点、线、面等不同类型的地理实体的上下文感知表征。实验表明，该方法在建筑功能分类、交通速度预测和兴趣点推荐等任务中均优于现有方法，验证了其在统一关系建模方面的有效性。

2605.12266 2026-05-13 cs.CV

CAD-feature enhanced machine learning for manufacturing effort estimation on sheet metal bending parts

Matteo Ballegeer, Toon Van Camp, Willem Jaspers, Alp Bayar, Aung Nyein Soe, Martin Roelfs, Dries F. Benoit, Bieke Decraemer, Joost R. Duflou

AI总结该研究针对钣金弯曲零件的制造努力估计问题，提出了一种结合CAD特征与图神经网络的混合方法。通过在B-rep拓扑图中引入基于规则模块识别的制造特征，如弯折特性、翻边长度等，增强了模型对工艺相关几何模式的学习能力。实验表明，该方法在合成数据集和真实工业数据集上均显著提升了预测精度，验证了领域知识与图学习结合在制造可行性评估中的有效性。

2605.12265 2026-05-13 cs.AI

How Useful Is Cross-Domain Generalization for Training LLM Monitors?

Sam Martin, Fabien Roger

AI总结本文研究了在有限训练数据下使用提示语言模型进行分类的有效性，并探讨了跨领域泛化对训练大语言模型分类器的作用。研究发现，通过多任务提示训练可以在相邻领域提升分类性能，但在某些边缘情况下，微调模型会因提示变化而失效。研究还表明，将分类训练与通用指令遵循训练结合，能够在保持分类性能的同时缓解泛化失败问题，并发现这种无思考的分类训练在构建其他分类器和监控系统中可能具有实用价值。

2605.12262 2026-05-13 cs.AI cs.LG

Missingness-MDPs: Bridging the Theory of Missing Data and POMDPs

Joshua Wendland, Markel Zubia, Roman Andriushchenko, Maris F. L. Galesloot, Milan Ceska, Henrik von Kleist, Thiago D. Simao, Maximilian Weininger, Nils Jansen

AI总结本文提出了一种新的部分可观测马尔可夫决策过程（POMDP）子类——缺失性-MDP（miss-MDP），将缺失数据理论融入强化学习框架中。该模型通过缺失函数描述状态特征在不同时间步缺失的概率，针对未知缺失函数的情况，提出基于不同缺失类型结构特性的算法，从观测数据中学习缺失函数，并据此生成近似最优策略。理论证明所得到的策略在真实 miss-MDP 中具有高概率的 ε-最优性，实验结果也验证了方法的有效性。

2605.12261 2026-05-13 cs.LG

Delay-Empowered Causal Hierarchical Reinforcement Learning

Chenran Zhao, Dianxi Shi, Haotian Wang, Mengzhu Wang, Yaowen Zhang, Chunping Qiu, Shaowu Yang

AI总结许多现实任务中存在延迟效应，即动作的后果会在不同时间滞后后才显现。现有延迟感知的强化学习方法通常依赖状态增强、延迟分布的先验知识或非延迟数据，限制了其泛化能力。本文提出了一种延迟赋能的因果分层强化学习方法（DECHRL），该方法显式建模状态转移的因果结构及其相关的随机延迟分布，并将其融入延迟感知的赋能目标中，引导智能体主动探索可控性高的状态，从而在时间不确定性下提升性能。实验表明，DECHRL在具有随机延迟的修改版2D-Minecraft和MiniGrid环境中显著优于基线方法。

2605.12259 2026-05-13 cs.CV

From Image Hashing to Scene Change Detection

Anh-Kiet Duong, Marie-Claire Iatrides, Petra Gomez-Krämer, Jean-Michel Carozza

AI总结图像哈希技术虽能高效存储和检索图像，但其全局比较特性无法定位具体变化区域，限制了其在场景变化检测中的应用。本文从场景变化检测的角度重新审视图像哈希，提出了一种基于块的哈希框架HashSCD，能够在哈明空间中直接实现全局变化检测与局部变化定位，无需对历史图像重复推理。该方法通过对比学习进行无监督训练，在保证性能的同时显著降低了计算和存储开销。

Comments 18 pages; accepted to ICPR 2026

2605.12258 2026-05-13 cs.LG

Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models

Runhe Lai, Xinhua Lu, Yanqi Wu, Jinlun Ye, Weijiang Yu, Ruixuan Wang

AI总结多模态大语言模型在实际应用中仍面临物体幻觉的挑战。本文深入分析了指令令牌嵌入，发现其隐含编码了视觉信息并能有效过滤误导性视觉嵌入带来的错误信息，基于此提出了一种无需额外训练或辅助模型的物体幻觉检测方法——指令透镜分数（InsLen）。该方法结合校准局部分数与上下文一致性分数，实验表明其在多个基准和不同模型架构上均优于现有方法，具有良好的有效性和鲁棒性。

Comments Accepted by ICML-2026

2605.12255 2026-05-13 cs.AI cs.CY cs.LG

Why Conclusions Diverge from the Same Observations: Formalizing World-Model Non-Identifiability via an Inference

Toru Takahashi

AI总结本文探讨了为何人们在面对相同观察时会产生不同结论的问题，指出这种分歧源于推理与学习过程中的非可识别性，而非对方认知缺陷。研究将非可识别性分为两个层次：在相同世界模型下因推理设置不同导致结论差异，以及推理设置本身影响数据暴露和更新规则，进而导致世界模型的差异。文章引入推理配置的概念，分析了分歧如何受计算、观察和协调等约束条件的影响，并将其与深度表征学习中的相关概念联系起来，通过AI监管辩论的案例加以说明。

Comments 12 pages, 2 figures, 1 table. Extended English version of a paper accepted for presentation at JSAI 2026

2605.12252 2026-05-13 cs.CV

H3D-MarNet: Wavelet-Guided Dual-Path Learning for Metal Artifact Suppression and CT Modality Transformation for Radiotherapy Workflows

Mubashara Rehman, Niki Martinel, Michele Avanzo, Riccardo Spizzo, Christian Micheloni

AI总结该研究提出了一种名为H3D-MarNet的两阶段框架，用于从千伏CT（kVCT）到兆伏CT（MVCT）的去金属伪影和CT模态转换，以提升放疗流程中的图像质量。第一阶段通过小波引导的预处理模块，在去除金属伪影的同时保留解剖结构；第二阶段采用结合卷积神经网络和Transformer的Domain-TransNet，通过注意力机制融合局部细节与全局上下文信息，实现高保真的CT模态转换。实验表明，该方法在伪影严重区域取得了较高的PSNR和SSIM指标，显示出其在临床放疗中的应用潜力。

Comments Accepted for publication at the 28th International Conference on Pattern Recognition, Lyon, France August, 17-22, 2026

2605.12247 2026-05-13 cs.RO

SI-Diff: A Framework for Learning Search and High-Precision Insertion with a Force-Domain Diffusion Policy

Yibo Liu, Stanko Oparnica, Simon Shewchun-Jakaitis, Guoyi Fu, Jie Wang, Jun Yang, Anand Jagannathan, Tony Hong-Yau Lo

AI总结在机器人接触丰富的装配任务中，由于相对位姿的不确定性，如错位和微小间隙，搜索和高精度插入面临重大挑战。本文提出SI-Diff框架，通过力域扩散策略统一学习搜索与高精度插入动作，引入新的模式条件机制以在单一模型中捕捉不同动作行为，并设计新的搜索教师策略生成多样化轨迹，从而提升模型对初始位姿偏差的容忍度和对未知形状的泛化能力。

Comments 9 pages, 8 figures