arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08185 2026-05-12 cs.RO cs.AI

From Ontology Conformance to Admissible Reconfiguration: A RoSO/SMGI Adequacy Argument for Robotic Service Governance

Aomar Osmani

AI总结本文探讨了在服务机器人系统中，当服务被重新绑定、重组、修复或重新部署后，如何确保其配置仍符合原始服务规范的问题。研究提出将机器人服务本体（RoSO）嵌入结构化通用智能模型（SMGI），通过引入结构接口和行为语义，实现对服务描述的动态治理。该方法不仅提供了RoSO到SMGI的充分性定理，还给出了保持身份不变的重构条件，为服务语义在修订过程中保持一致提供了形式化保障。

Comments 26 pages

2605.08183 2026-05-12 cs.CV cs.LG

Sparsity Hurts: Simple Linear Adapter Can Boost Generalized Category Discovery

Bo Ye, Kai Gan, Tong Wei, Min-Ling Zhang

AI总结本文研究了广义类别发现（GCD）问题，旨在从无标签数据中发现新类别，同时保持对已知类别的分类能力。为了解决现有方法在模型适应性和过拟合方面的不足，作者提出了一种简单有效的GCD方法LAGCD，通过在每个ViT块中嵌入残差线性适配器，提升了模型的灵活性和性能。实验表明，LAGCD在多个通用和细粒度数据集上均优于许多复杂基线方法。

Comments Submitted to IEEE TPAMI

2605.08182 2026-05-12 cs.LG cs.AI

Quantile Geometry Regularization for Distributional Reinforcement Learning

Zhaofan Zhang, Minghao Yang, Rufeng Chen, Sihong Xie, Hui Xiong

AI总结该论文提出了一种名为RQIQN的分布强化学习方法，旨在解决基于分位数的分布强化学习中因引导目标分位数导致的分布估计失真问题。通过引入Wasserstein分布鲁棒性增强，该方法在分位数估计的基础上对贝尔曼目标进行修正，从而在不改变价值目标的前提下，有效改善分布退化现象。实验表明，RQIQN在风险敏感导航和Atari游戏中优于现有的分位数分布强化学习算法。

2605.08181 2026-05-12 cs.CV cs.AI cs.LG

Text-Guided Multi-Scale Frequency Representation Adaptation

Weicai Yan, Xinhua Ma, Wang Lin, Tao Jin

AI总结本文提出了一种名为FreqAdapter的参数高效的微调方法，通过在频率域中引入文本引导的多尺度频率表示适配，解决现有方法在信号空间域中信息冗余以及无法充分捕捉信号多尺度特征的问题。该方法采用多尺度适配策略，优化不同频率范围的感受野，显著提升了模型的表征能力与效率。实验表明，FreqAdapter在CLIP和LLaVA等多模态模型上取得了性能与效率的双重提升。

Comments ACL 2026 Main

2605.08178 2026-05-12 cs.LG cs.AI

Generalized Category Discovery in Federated Graph Learning

Zhongzheng Yuan, Lianshuai Guo, Xunkai Li, Wenyu Wang, Meixia Qu

AI总结本文研究了联邦图学习中的广义类别发现（FGGCD）问题，旨在在分布式图数据环境中协作发现新类别并保留已知类别知识。针对结构碎片化导致的邻域吸收效应和全局语义不一致等核心挑战，提出了一种名为GCD-FGL的框架，通过客户端的拓扑可靠语义对齐与发现机制和服务器端的层次化原型对齐策略，有效缓解了这些问题。实验表明，该方法在多个真实图数据集上显著优于现有方法。

2605.08177 2026-05-12 cs.LG cs.AI

Echo-LoRA: Parameter-Efficient Fine-Tuning via Cross-Layer Representation Injection

Yihang Peng, Peng Jin, Jie Gong, Xingyuan Chen, Lingjiao Xu, Ning Su, Yan Ran

AI总结本文提出了一种名为Echo-LoRA的参数高效微调方法，通过跨层表示注入提升大语言模型在下游任务中的性能。该方法在训练过程中从深层网络层提取隐藏状态，生成样本级回声表示，并通过轻量投影和门控网络将其注入到浅层LoRA或DoRA模块中，从而更有效地利用中间表示。实验表明，Echo-LoRA在多个常识推理基准上显著优于现有LoRA基线方法，且部署时无需额外参数或计算开销。

2605.08176 2026-05-12 cs.LG cs.NE

Physics-Modeled Neural Networks

Raul Felipe-Sosa, Angel Martin del Rey, Maria Flores Ceballos

AI总结本文提出了一种名为“动态物理建模神经网络”（DynPMNNs）的连续时间深度学习架构，其隐藏层通过常微分方程的解来定义，替代了传统神经网络中的静态激活函数，从而赋予隐藏层行为以动态系统视角，并能融合物理意义的模型。该框架基于再生核巴拿赫空间理论，揭示了其与标准神经网络的结构联系。实验表明，DynPMNNs在参数更少的情况下仍能取得与神经ODE和闭式连续时间网络相当的性能，展示了其在深度学习与动力系统之间建立理论桥梁的潜力。

2605.08175 2026-05-12 cs.CV cs.AI

KARMA-MV: A Benchmark for Causal Question Answering on Music Videos

Archishman Ghosh, Abhinaba Roy, Dorien Herremans

AI总结尽管视频问答和跨模态理解已取得显著进展，但对音乐视频中视觉动态如何驱动音乐结构的因果推理仍研究不足。本文提出 KARMA-MV，一个基于2,682个YouTube音乐视频构建的多选题问答数据集，旨在评估模型整合时序视听线索并进行视觉到音乐影响推理的能力。该数据集通过大语言模型实现可扩展的生成与验证，包含37,737道题目，并引入因果知识图谱方法增强视觉语言模型的跨模态依赖结构化检索能力，实验表明该方法尤其对小型模型有显著提升，为音乐视频因果理解提供了新的基准。

2605.08174 2026-05-12 cs.LG cs.AI cs.CV

CERSA: Cumulative Energy-Retaining Subspace Adaptation for Memory-Efficient Fine-Tuning

Jingze Ge, Xue Geng, Yun Liu, Wanqi Dong, Wang Zhe Mark, Min Wu, Ngai-Man Cheung, Bharadwaj Veeravalli, Xulei Yang

AI总结为了解决大模型微调过程中的内存限制问题，本文提出了一种新的高效微调方法CERSA，该方法通过奇异值分解（SVD）保留权重变化中90%至95%的谱能量，仅对低秩表示进行微调，从而大幅降低内存消耗。与现有方法如LoRA相比，CERSA在保持高性能的同时显著提升了内存效率，并在图像识别、文本生成和自然语言理解等多个任务和不同规模模型上均表现出优越性。

Comments 10 pages, 7 figures, supplementary material included

2605.08173 2026-05-12 cs.CV cs.LG

CASISR: Circular Arbitrary-Scale Image Super-Resolution

Honggui Li, Zhengyang Zhang, Dingtai Li, Sinan Chen, Nahid Md Lokman Hossain, Xinfeng Xu, Yinlu Qin, Ruobing Wang, Hantao Lu, Yuting Feng, Maria Trocan, Dimitri Galayko, Amara Amara, Mohamad Sawan

AI总结本文提出了一种基于闭环架构的任意尺度图像超分辨率方法CASISR，旨在提升预训练模型在测试数据上的泛化性能。通过结合超分辨率与退化模型，CASISR利用自动控制理论构建了一个数学非线性闭环方程，并通过条件概率理论和泰勒展开证明了其合理性和稳定性。实验表明，CASISR在图像重建质量上优于八个现有方法，尤其在处理分数倍放大因子以及边缘变化剧烈的文本和条纹图像时表现出色。

2605.08172 2026-05-12 cs.CV cs.LG

Augmented Equivariant Mesh Networks for Anatomical Segmentation

Daniel Saragih

AI总结本文提出了一种名为EAMS的等变解剖网格分割模型，用于处理医学图像中的不规则表面几何结构，并在不同患者姿态和网格分辨率变化下保持鲁棒性。该方法基于等变网格神经网络（EMNN），结合内在网格描述符与解剖学先验知识，如牙齿弓和肝脏表面的PCA帧，并增强消息传递机制以提供全局上下文信息。实验表明，EAMS在多种临床任务中表现出色，尤其在未受扰动和几何扰动情况下均具有较高的分割精度和稳定性，且模型参数量少于200万，展示了其高效与通用性。

Comments 21 pages, 7 figures, 14 tables

2605.08170 2026-05-12 cs.LG math.FA

Quantitative Sobolev Approximation Bounds for Neural Operators with Empirical Validation on Burgers Equation

Nicole Hao

AI总结本文研究了神经算子在Sobolev范数下的逼近能力，并以Burgers方程为例进行了实证分析。作者建立了一个函数分析框架，证明了在特定条件下，非线性算子可以用具有特定参数数量的神经算子以指定误差进行逼近，并给出了误差与参数规模之间的显式关系。实验表明，Fourier神经算子在Sobolev空间中具有良好的逼近性能，且其误差随参数数量呈现幂律关系，验证了理论分析的有效性。

2605.08169 2026-05-12 cs.CV cs.AI

Optimized Culprit Identification Using Mobilenet and Attention Mechanisms

Savitha N J, Lata B T

AI总结本文提出了一种结合轻量级MobileNet架构与通道和空间注意力机制的优化深度学习框架，用于提升监控系统中可疑目标识别的准确率与计算效率。该方法通过注意力机制强化关键特征区域，抑制背景干扰，从而提高识别性能。实验表明，该模型在多个基准人脸数据集上取得了97.8%的高分类准确率，优于传统模型，并且具有较低的计算复杂度和推理时间，适用于实时监控和边缘计算场景。

2605.08168 2026-05-12 cs.RO cs.AI cs.LG

Understanding Asynchronous Inference Methods for Vision-Language-Action Models

Ayoub Agouzoul

AI总结视觉-语言-动作（VLA）模型为通用机器人控制提供了前景，但其推理延迟会导致异步执行时的观测滞后问题。本文系统比较了四种缓解该问题的方法，包括推理时修复（IT-RTC）、训练时延迟模拟（TT-RTC）、未来状态感知条件（VLASH）和轻量残差校正（A2C2），通过统一的代码库和实验设置在多个基准上进行评估。结果表明，A2C2在多数场景下表现最优，而TT-RTC则在训练稳定性方面具有优势。

2605.08167 2026-05-12 cs.CV cs.AI

Digital Image Forgery Detection Using Transfer Learning

Fatma Betul Buyuk, Gozde Karatas Baydogmus, Ali Buldu, Ayaulym Tulendiyeva, Zhuldyz Baizhumanova

AI总结随着高级图像编辑工具的普及，数字图像伪造内容日益增多，给数字取证和信息安全带来严峻挑战。本文提出了一种基于迁移学习的图像伪造检测框架，结合压缩感知特征增强与深度卷积神经网络，通过融合RGB图像与基于压缩差异的特征（FDIFF），有效提升了对细微伪造痕迹的检测能力。实验表明，该方法在多个预训练网络模型上均表现出优越的性能，尤其在降低误报率和提升分类可靠性方面具有显著优势，适用于实际场景中的图像伪造检测。

2605.08161 2026-05-12 cs.CV

Advanced Tumor Segmentation in PET/CT Imaging: A Training Strategy Study with nnU-Net for AutoPET III

Hussain Alasmawi

AI总结本文研究了全身PET/CT影像中肿瘤分割的挑战性问题，旨在开发一种能够跨示踪剂和多中心数据泛化的分割方法。作者基于nnU-Net框架，采用ResNet作为编码器，并系统探索了强度归一化、批量Dice优化和CraveMix数据增强等训练策略对模型性能的影响。实验表明，这些策略显著提升了模型在减少假阳性及应对病灶变化方面的鲁棒性，最佳配置在初步测试中达到0.80的Dice分数，并在AutoPET III挑战赛中排名第三。

2605.08160 2026-05-12 cs.CV cs.AI

WATCH: Wide-Area Archaeological Site Tracking for Change Detection

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali, Allen Kim, Jonathan Chemla, Andrew Zolli, Yves Ubelmann, Caleb Robinson, Inbal Becker-Reshef, Juan Lavista Ferres

AI总结本文提出 WATCH 框架，用于大规模考古遗址的月级变化检测，旨在解决因视觉线索细微和真实标注数据稀缺而导致的扰动识别难题。该方法结合三种互补的评分策略，包括无需训练的时间嵌入距离（TED）、自监督变化检测（SSCD）以及弱监督时间定位模型，并在阿富汗等多国遗址上进行验证。实验表明，基于卫星影像与基础模型嵌入的无监督方法在变化检测中表现优异，尤其在早期预警和精确时间定位方面具有显著优势。

详情

英文摘要

Monitoring archaeological sites at scale is vital for protecting cultural heritage, yet pinpointing when disturbances occur remains difficult because visual cues are subtle and ground-truth data are sparse. We introduce WATCH, a framework for month-level change-event localization over PlanetScope satellite mosaics (2017-2024, 4.7 m/px) that supports three complementary scoring approaches: (i) Temporal Embedding Distance (TED), a training-free method that scores month-to-month deviations from a local temporal reference; (ii) Self-Supervised Change Detection (SSCD), an ensemble of reconstruction, forecasting, and latent-novelty signals; and (iii) a Weakly Supervised (WS) temporal localization model trained with sparse event-month labels. We benchmark WATCH on 1,943 archaeological sites in Afghanistan using embeddings from six foundation models (CLIP, GeoRSCLIP, SatMAE, Prithvi-EO-2.0, DINOv3, and Satlas-Pretrain) alongside a handcrafted spectral and texture baseline, and assess cross-regional generalization on sites in Syria, Turkey, Pakistan, and Egypt. The unsupervised approaches (TED, SSCD) consistently outperform the weakly supervised alternative. TED with SatMAE achieves the highest exact-month recall (55% at m=0), while TED with GeoRSCLIP, CLIP, or Satlas-Pretrain reaches 92.5% within a three-month tolerance (m=3). Handcrafted features remain competitive for exact-month detection under weak supervision. Our directional margin analysis reveals systematic temporal biases: SSCD paired with GeoRSCLIP or Prithvi-EO-2.0 exhibits the strongest early-warning profile, detecting anomalies before the recorded event, while TED favors confirmation-oriented detection after a change has materialized. These results show that satellite imagery combined with foundation-model embeddings enables scalable, decision-relevant heritage monitoring. Code: https://github.com/microsoft/WATCH

URL PDF HTML ☆

赞 0 踩 0

2605.08158 2026-05-12 cs.CV cs.AI

HY-Himmel Technical Report: Hierarchical Interleaved Multi-stream Motion Encoding for Long Video Understanding

Haopeng Jin, Hongzhu Yi, Wenlong Zhao, Jinwen Luo, Shani Ye, Zhenyu Guan, Shiquan Dong, Tiankun Yang, Tao Yu

AI总结本文提出了一种名为HY-Himmel的层次化视频-语言框架，旨在解决多模态语言模型在长视频理解中面临的关键问题，包括高解码成本、token数量二次增长以及稀疏采样下的运动感知不足。该方法通过将语义和运动编码分离，利用少量稀疏的I帧进行对象和场景识别，同时使用轻量级的三流适配器对密集的帧间信息进行运动特征提取，并通过可微分的占位符机制将运动特征注入语言模型。实验表明，HY-Himmel在Video-MME数据集上相比32帧的密集基线模型，在保持更少token数量的前提下实现了显著的性能提升。

Comments 59 pages, 42 figures. Technical report

2605.08156 2026-05-12 cs.CV cs.AI

LAGO: Language-Guided Adaptive Object-Region Focus for Zero-Shot Visual-Text Alignment

Junyi Hu, Qiji Zhou, Lei Zhang, Yue Zhang

AI总结该研究提出了一种名为LAGO的框架，用于解决零样本视觉-文本对齐中的细粒度识别问题。针对现有方法依赖大量冗余图像区域导致推理成本高、语义引导过早引入易产生错误反馈的问题，LAGO通过类无关的对象中心候选发现和自适应语言引导的精炼策略，实现了更高效且鲁棒的对齐。实验表明，LAGO在多个标准零样本基准和分布偏移场景中均取得领先性能，同时大幅减少了推理时所需的候选区域数量。

Comments 37 pages, 26 figures, including appendix. Preprint

2605.08153 2026-05-12 cs.LG cs.GT

Temporal-Decay Shapley: A Time-Aware Data Valuation Framework for Time-Series Data

Chuwen Pang, Bing Mi, Kongyang Chen

AI总结随着机器学习在时间序列数据中的广泛应用，准确评估训练样本的价值对于数据选择、噪声检测和模型优化至关重要。然而，传统数据评估方法通常假设样本独立同分布，忽略了时间序列数据中样本价值随时间变化的特性。本文提出了一种基于时间衰减机制和多尺度融合策略的改进时间序列Shapley数据评估方法，通过三种逐步增强的时间Shapley方法，有效提升了时间序列数据中样本价值评估的准确性，实验表明该方法在噪声检测和高价值数据识别任务中优于传统方法，尤其在强时间依赖场景下表现更为突出。

2605.08150 2026-05-12 cs.LG

A PyTorch Library of Turing-Complete Neural Networks

Jonathan Bates

AI总结本文介绍了一个基于 PyTorch 的库，能够从图灵机的描述直接编译出神经网络模型，无需训练即可精确模拟指定的图灵机行为。该库实现了两种不同的网络架构，分别对应两种理论结果，展示了如何通过 ReLU 网络实现布尔电路，以及如何利用硬注意力机制实现图灵机磁带的位置查找。该工具为符号与神经网络之间的桥梁提供了具体的实现参考，也为未来研究构造解在梯度优化下的稳定性奠定了基础。

2605.08149 2026-05-12 cs.LG cs.CL

Feature Rivalry in Sparse Autoencoder Representations: A Mechanistic Study of Uncertainty-Driven Feature Competition in LLMs

Harshavardhan

AI总结该研究探讨了稀疏自编码器（SAEs）在大语言模型中的特征竞争现象，即“特征对抗”，并分析其与模型不确定性之间的关系。通过在Gemma-2-2B模型上进行受控实验，研究发现高熵问题会显著增强特定网络层中的特征对抗现象，并且这种对抗在一定程度上可以预测模型输出的准确性。研究还表明，沿特征对抗方向进行激活引导能够更有效地改变模型输出，揭示了特征对抗在模型处理过程中的因果作用。

Comments 10 pages, 6 figures

2605.08144 2026-05-12 cs.LG cs.AI cs.CV

NoiseRater: Meta-Learned Noise Valuation for Diffusion Model Training

Fang Wu, Haokai Zhao, Da Xing, Hanqun Cao, Tinson Xu, Yanchao Li, Xiangru Tang, Zehong Wang, Aaron Tu, Kuan Pang, Hanchen Wang, Hongbin Lin, Zeqi Zhou, Yinxi Li, Peng Xia, Li Erran Li, Molei Tao, Jure Leskovec, Aditya Joshi, Yejin Choi

AI总结扩散模型在生成任务中取得了显著成功，但其训练过程中通常将注入的噪声视为具有相同信息量。本文提出NoiseRater，一种基于元学习的噪声评估框架，用于在扩散模型训练中对每个噪声样本进行实例级重要性评分，从而实现训练目标的自适应重加权。通过双层优化训练评估器，并设计两阶段训练流程，实验表明关注信息量大的噪声能有效提升训练效率和生成质量，为扩散模型训练提供了新的优化方向。

2605.08142 2026-05-12 cs.LG cs.CL cs.CV

Reasoning emerges from constrained inference manifolds in large language models

Yanbiao Ma, Fei Luo, Linfeng Zhang, Chuangxin Zhao, Mingxuan Wang, Yinan Wu, Zhe Qian, Yang Lu, Long Chen, Zhao Cao, Xiaoshuai Hao, Ji-Rong Wen, Jungong Han

AI总结该研究探讨了大语言模型中推理能力的内在动态过程，发现推理时的表示演化会自我组织成高维空间中的低维流形。研究指出，仅靠几何压缩不足以实现稳定可靠的推理，有效的推理动态需要满足三个条件：足够的表达能力、自发的流形压缩以及压缩子空间中非退化信息体积的保持。基于这些发现，作者提出了一种无需标签的诊断方法，揭示了大语言模型的推理本质是由几何与信息约束共同决定的。

2605.08138 2026-05-12 cs.LG

DataArc-SynData-Toolkit: A Unified Closed-Loop Framework for Multi-Path, Multimodal, and Multilingual Data Synthesis

Zhichao Shi, Cehao Yang, Hao Zhou, Xiaojun Wu, Huajie Li, Xuhui Jiang, Chengjin Xu, Yuanzhuo Wang, Jian Guo

AI总结为了解决大语言模型在特定领域和低资源语言中面临的数据稀缺问题，本文提出了一种名为 DataArc-SynData-Toolkit 的开源工具包，它提供了一个统一的闭环框架，支持多路径、多模态和多语言数据的合成。该工具包通过配置驱动的端到端流程、标准化的高质量生成范式以及高度模块化的架构，显著提升了数据合成的易用性、可扩展性和跨模态适应能力。实验表明，该工具在生成效率与数据质量之间达到了良好平衡，有助于降低合成数据生成及模型训练的技术门槛，加速其在实际应用中的部署。

Comments 6 pages

2605.08137 2026-05-12 cs.LG cs.AI cs.CY

Weight Pruning Amplifies Bias: A Multi-Method Study of Compressed LLMs for Edge AI

Plawan Kumar Rath, Rahul Maliakkal

AI总结该研究探讨了权重剪枝对大型语言模型公平性的影响，发现激活感知剪枝方法（如Wanda）在保持模型语言能力的同时显著放大了模型的偏见。研究对比了三种剪枝方法在不同稀疏度下的表现，揭示了“智能剪枝悖论”：剪枝虽能提升模型压缩效率，却可能加剧模型的刻板印象行为。研究还指出，剪枝在边缘设备上的实际部署效果有限，且对模型对齐构成比量化更大的风险，强调了在边缘AI部署前进行偏见验证的重要性。

Comments 8 pages, 7 figures, 8 tables. Accepted at the 7th Annual World AIIoT Congress (AIIoT 2026). This is the author's accepted version; the version of record will appear in IEEE Xplore

2605.08136 2026-05-12 cs.CV cs.AI cs.RO

Benchmarking ResNet Backbones in RT-DETR: Impact of Depth and Regularization under environmental conditions

Pamela Barboza, Víctor Castelli, Belén Pereira, Ricardo Grando, Bruna de Vargas, Augusto Calfani

AI总结本文研究了在竞技机器人环境下，不同深度的ResNet主干网络对RT-DETR目标检测性能的影响，重点分析了光照和背景变化对模型置信度、准确率及推理延迟的影响。通过对比ResNet18、ResNet34、ResNet50和ResNet101四种模型，在相同配置下进行训练与评估，发现环境条件主要影响预测置信度，而推理延迟基本不受影响，分类准确率普遍较高。实验表明，ResNet50在光照变化下表现最佳，ResNet34在背景变化下具有更均衡的性能，说明最优网络结构取决于具体的环境变化类型。

Comments Accepted at the International Conference on Data Science, Technology and Applications (DATA) 2026

2605.08135 2026-05-12 cs.LG

Dendritic Neural Networks with Equilibrium Propagation

Yoshimasa Kubo

AI总结本文研究了将树突神经网络与平衡传播（EP）结合的可行性，提出了一种基于先进EP框架的树突EP模型。实验表明，该模型在简单任务上表现与标准EP相当，在更具挑战性的数据集和深层网络中则显著优于标准EP，接近使用时间反向传播训练的树突网络性能。分析发现，树突结构改变了网络内部动态，提升了隐藏状态的激活幅度和分布性，表明引入树突结构有助于增强生物合理性学习算法的效果，尤其在标准EP表现不佳的场景中。

Comments 8 pages

2605.08134 2026-05-12 cs.LG cs.AI

DARE: Diffusion Language Model Activation Reuse for Efficient Inference

Natalia Frumkin, Bokun Wang, Hung-Yueh Chiang, Chi-Chih Chang, Mohamed S. Abdelfattah, Diana Marculescu

AI总结本文提出了一种名为DARE的方法，旨在提升扩散语言模型（dLLM）的推理效率。研究发现，dLLM在双向自注意力机制中存在“词粒度冗余”特性，即不同词之间的注意力激活高度相关，可据此复用部分计算结果。DARE通过两个互补机制——DARE-KV复用键值激活，DARE-O复用输出激活，显著减少了冗余计算，在保持生成质量的同时实现了每层延迟最高1.20倍的提升，并可复用高达87%的注意力激活。

2605.08131 2026-05-12 cs.LG

Interactive Inverse Reinforcement Learning of Interaction Scenarios via Bi-level Optimization

Yue Mao, Shicheng Liu, Siyuan Xu, Minghui Zhu

AI总结本文研究了交互式逆强化学习（IIRL）问题，旨在通过与专家的互动学习其奖励函数并制定相应的交互策略。为此，作者将IIRL建模为一个随机双层优化问题，其中底层学习解释专家行为的奖励函数，上层学习与专家交互的策略。提出了一种双循环算法BISIRL，能够在内层求解奖励函数，外层优化交互策略，并在理论上保证算法收敛，实验验证了其有效性。