arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10335 2026-05-12 cs.LG cs.AI cs.CL cs.NA math.NA math.OC

PowerStep: Memory-Efficient Adaptive Optimization via $\ell_p$-Norm Steepest Descent

Yao Lu, Dengdong Fan, Shixun Zhang, Yonghong Tian

AI总结本文提出了一种名为 PowerStep 的内存高效的自适应优化算法，旨在解决大规模神经网络训练中传统自适应优化器（如 Adam）所面临的内存开销过大的问题。该方法通过在动量缓冲区上直接应用非线性变换，实现了坐标自适应性，而无需存储二阶矩统计量。实验表明，PowerStep 在保持与 Adam 相当收敛速度的同时，显著降低了优化器的内存占用，并在结合量化技术后进一步提升了内存效率。

2605.10334 2026-05-12 cs.CV

The Alpha Blending Hypothesis: Compositing Shortcut in Deepfake Detection

Andrii Yermakov, Jan Cech, Mario Fritz, Jiri Matas

AI总结近年来，深度伪造检测方法在跨数据集泛化能力上有所提升，但其背后的机制仍不明确。本文提出“Alpha混合假说”，认为当前先进的基于帧的检测器实际上是在搜索Alpha混合痕迹，而非学习语义异常或生成模型的指纹。研究通过实验验证了该假说，并提出了一种基于真实人脸图像和自混合图像增强数据集的检测方法BlenD，在多个合成伪造数据集上取得了最佳的跨数据集泛化性能，且无需在训练中使用明确生成的深度伪造样本。

2605.10332 2026-05-12 cs.AI

EmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents

Ruofei Ju, Xinrui Wang, Xin Ding, Yifan Yang, Hao Wu, Shiqi Jiang, Qianxi Zhang, Hao Wen, Xiangyu Li, Weijun Wang, Kun Li, Yunxin Liu, Haipeng Dai, Wei Wang, Ting Cao

AI总结 EmbodiSkill 是一种用于具身智能体技能自演进的训练-free 框架，旨在解决具身环境中任务失败可能由技能错误或执行失误共同导致的问题。该方法通过技能感知的反思机制，区分任务失败中的技能错误与执行失误，并分别进行针对性的修正与强化。实验表明，EmbodiSkill 能有效提升具身任务的成功率，在 ALFWorld 上实现了高达 93.28% 的任务成功率，显著优于无技能直接使用的大型语言模型。

2605.10319 2026-05-12 cs.CV

LimeCross: Context-Conditioned Layered Image Editing with Structural Consistency

Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Ko Watanabe, Riku Takahashi, Issey Sukeda, Andreas Dengel

AI总结本文提出了一种名为 LimeCross 的训练-free 上下文条件化分层图像编辑框架，能够在保持未选层不变的前提下，根据文本指令对用户选定的 RGBA 分层进行编辑。该方法通过双流注意力机制利用其他层的上下文信息，保持跨层一致性，并有效防止编辑层污染。研究还引入了 LayerEditBench 数据集与评估协议，实验表明 LimeCross 在分层纯净度和合成真实感方面优于现有方法，为可控生成创作提供了新的分层编辑范式。

2605.10318 2026-05-12 cs.CL

Extending Confidence-Based Text2Cypher with Grammar and Schema Aware Filtering

Makbule Gulcin Ozsoy

AI总结该研究探讨了如何在Text2Cypher任务中利用结构化约束提升生成查询的可靠性。作者提出了一种结合置信度评分、语法验证和模式约束的过滤框架，通过在生成后进行多阶段验证来提高查询的正确性。实验表明，语法和模式感知的过滤分别提升了生成查询的语法有效性和执行质量，但也会增加空预测的数量并降低覆盖率。研究为理解不同约束对生成效果的影响提供了新的视角。

2605.10317 2026-05-12 cs.LG cs.AI

Relations Are Channels: Knowledge Graph Embedding via Kraus Decompositions

Sayan Kumar Chaki

AI总结本文提出了一种基于Kraus分解的知识图谱嵌入方法，通过引入线性、迹保持和完全正性三个结构公理，将关系操作符形式化为Kraus通道，从而为关系建模提供了理论基础。该方法不仅能够自然处理多对多关系，还支持多跳推理并消除了对实体嵌入范数的约束，同时提出了首个具有理论依据的关系复杂度度量。实验表明，该模型在多对多关系任务上显著优于现有方法。

2605.10315 2026-05-12 cs.LG cs.AI

Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

Zheyu Zhang, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

AI总结本文研究了在数据稀缺场景下如何通过生成表格数据来提升下游模型性能的问题。传统方法侧重于生成数据的分布保真度，但未能有效提升模型表现。为此，作者提出了TAP方法，结合扩散补全技术与条件策略，动态选择生成内容和注入时机，以最大化对当前学习器的提升效果。实验表明，TAP在多个真实数据集上显著优于现有方法，分类准确率提升最高达15.6个百分点，回归任务的RMSE降低最高达32%。

Comments Accepted for publication at ICML 2026

2605.10313 2026-05-12 cs.LG math.OC

Signature Approach for Contextual Bandits with Nonlinear and Path-dependent Rewards

Xin Guo, Grace He, Xinyu Li

AI总结本文研究具有非线性和路径依赖奖励的上下文多臂老虎机问题，提出了一种基于签名变换的新方法，将连续路径依赖的奖励函数在签名空间中近似为线性函数，从而能够高效地应用线性上下文老虎机算法并保留序列结构信息。基于该框架，作者设计了签名驱动的离散上置信界算法DisSigUCB，并在一定假设下证明了其高概率数据依赖的次线性遗憾界。实验表明，该算法在非线性和路径依赖场景下优于传统线性和核方法。

2605.10307 2026-05-12 cs.CV cs.GR cs.RO

PaMoSplat: Part-Aware Motion-Guided Gaussian Splatting for Dynamic Scene Reconstruction

Yinan Deng, Jianyu Dou, Jiahui Wang, Jingyu Zhao, Yi Yang, Yufeng Yue

AI总结动态场景重建是计算机视觉与机器人领域中的一个基础而具有挑战性的问题。为了解决复杂运动场景下高保真渲染与精确跟踪的难题，本文提出了一种新的动态高斯泼溅框架 PaMoSplat，该方法结合了部件感知与运动先验。通过多视角分割掩码的三维重建与光流引导的部件运动估计，PaMoSplat 能够实现更高质量的渲染与更精确的跟踪，并在多个实际场景中表现出优于现有方法的性能与收敛速度。

Comments Accepted by TCSVT. Project Url: https://pamosplat.github.io

2605.10298 2026-05-12 cs.LG

Set Prediction for Next-Day Active Fire Forecasting

Yuchen Bai, Georgios Athanasiou, Xin Yu, Diogenis Antonopoulos, Ioannis Papoutsis, Stijn Hantson, Nuno Carvalhais

AI总结本文提出了一种名为WISP的模型，用于高分辨率的次日主动火点预测，将火点预测问题重新定义为点集预测任务。该模型基于48小时的多源数据，如气象、植被、地理和历史火点信息，在375米网格上预测未来火点集群中心的固定大小排名集合，并通过匈牙利匹配进行端到端训练。实验表明，该方法在全局测试集上取得了较高的平均精度和火点覆盖度，为高分辨率火灾预测提供了新的方法和基准。

2605.10296 2026-05-12 cs.CL cs.AI cs.IR cs.LG

Qwen Goes Brrr: Off-the-Shelf RAG for Ukrainian Multi-Domain Document Understanding

Anton Bazdyrev, Ivan Bashtovyi, Ivan Havlytskyi, Oleksandr Kharytonov, Artur Khodakovskyi

AI总结本文研究了如何利用现成的检索增强生成（RAG）方法解决乌克兰语多领域文档理解任务，具体为从PDF文档中回答多项选择题并定位支持信息。作者提出了一种基于上下文分块、问题感知的密集检索与重排序以及受限答案生成的管道，有效提升了系统性能。实验表明，使用Qwen系列模型进行检索与重排序能够显著提高召回率和答案准确率，在公开和私有测试集上均取得优异成绩，验证了结构保留和答案空间感知在严格竞赛条件下的有效性。

Comments Accepted to The Fifth Ukrainian Natural Language Processing Conference (UNLP 2026)

2605.10295 2026-05-12 cs.CL

DECO-MWE: building a linguistic resource of Korean multiword expressions for feature-based sentiment analysis

Jaeho Han, Changhoe Hwang, Seongyong Choi, Gwanghoon Yoo, Eric Laporte, Jeesun Nam

AI总结本文旨在构建一个用于基于特征的情感分析的韩语多词表达（MWE）语言资源DECO-MWE。为高效构建情感相关的MWE资源，研究采用局部语法图（LGG）方法，将DECO-MWE形式化为有限状态转换器，以表达MWE的词法和句法限制。通过构建化妆品评论语料库并进行实证分析，研究识别出四类MWE，并在测试语料中实现了0.806的F值，为基于特征的情感分析提供了通用的多词表达词典和可复用的有限状态处理方法。

2605.10293 2026-05-12 cs.LG cs.AI

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Maris F. L. Galesloot, Thomas Rhemrev, Nils Jansen

AI总结本文研究了如何在离线强化学习中实现安全策略改进的问题，提出了鲁棒的概率屏蔽方法，通过结合安全策略改进（SPI）与屏蔽技术，仅利用已有数据集和安全状态知识，在策略优化过程中提供性能与安全性的双重保障。该方法能够在高概率下确保改进后的策略既优于基线策略，又满足安全约束，实验表明其在数据量较少时表现出更优的平均与最差情况性能。

2605.10292 2026-05-12 cs.LG cs.AI

LeapTS: Rethinking Time Series Forecasting as Adaptive Multi-Horizon Scheduling

Sheng Pan, Ming Jin, Bo Du, Shirui Pan

AI总结本文提出了一种名为 LeapTS 的新型时间序列预测框架，将传统固定映射的预测任务重新定义为动态的多步调度过程，以更好地适应未来时间点的演变。LeapTS 通过分层控制器和神经控制微分方程实现多级决策，动态选择预测尺度和推进步长，从而提升模型对非平稳动态的捕捉能力。实验表明，LeapTS 在多个真实和合成数据集上显著提升了预测性能，并实现了比基于 Transformer 的模型更快的推理速度。

2605.10286 2026-05-12 cs.AI

AgentRx: A Benchmark Study of LLM Agents for Multimodal Clinical Prediction Tasks

Baraa Al Jorf, Farah E. Shamout

AI总结本文提出并评估了基于大语言模型（LLM）的智能体在多模态临床预测任务中的性能，研究了其在电子健康记录、医学影像、报告和临床笔记等异构数据上的表现。通过大规模真实医疗数据的系统性实验，发现单一智能体框架在多模态任务中优于简单的多智能体系统，具有更强的数据处理能力和校准效果。该研究为医疗领域智能体系统的进一步发展提供了新的基准，并开源了代码和评估框架。

Comments Accepted at the AHLI Conference on Health, Inference, and Learning 2026

2605.10281 2026-05-12 cs.SD cs.AI

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

Konstantinos Soiledis, Maximos Kaliakatsos-Papakostas, Dimos Makris, Konstantinos Tsamis

AI总结本文研究如何从带有微时值和力度信息的表达性鼓点网格（MIDI表示）直接生成逼真的鼓音频，提出了一种基于神经音频编解码器的方法。该方法使用基于Transformer的模型将鼓点网格映射为编解码器的离散码元序列，并通过预训练的编解码器解码器生成波形音频。实验表明，该方法在大型人类鼓演奏数据集E-GMD上表现出良好的音频保真度和音乐对齐性，为鼓点到音频的生成提供了有效途径，并为打击乐合成中的音频码元选择提供了实用参考。

2605.10279 2026-05-12 cs.LG

DeepLog: A Software Framework for Modular Neurosymbolic AI

Robin Manhaeve, Stefano Colamonaco, Vincent Derkinderen, Rik Adriaensen, Lucas Van Praet, Luc De Raedt, Giuseppe Marra

AI总结 DeepLog 是一个基于 PyTorch 的模块化神经符号人工智能框架，旨在将逻辑推理与深度学习统一在一个操作流程中。该框架通过将多种神经符号语言作为高层规范进行自动编译，生成优化的算术电路，从而降低了机器学习实践者的使用门槛，并为神经符号系统开发者提供了一个高性能的共享平台。其核心贡献在于实现了神经符号系统的模块化与通用化，便于不同方法的集成与实验。

Comments Preprint accepted at IJCAI2026 Demo Track

2605.10278 2026-05-12 cs.LG

Predictive Radiomics for Evaluation of Cancer Immune SignaturE in Glioblastoma: the PRECISE-GBM study

Prajwal Ghimire, Junjie Li, Liu Yaou, Marc Modat, Thomas Booth

AI总结本研究旨在通过影像基因组学方法，开发并验证用于评估IDH野生型胶质母细胞瘤免疫特征的影像生物标志物。研究利用多中心回顾性数据，结合深度学习分割的MRI影像特征与基因组数据，构建并验证了基于放射组学的免疫签名预测模型。结果表明，所提出的模型能够非侵入性地预测巨噬细胞M0亚型的免疫特征，具有良好的稳定性和泛化能力，有望用于指导胶质母细胞瘤患者的免疫治疗分层。

Comments Abstract : 226; Importance of study: 109; Manuscript: 5690 (excluding references) Figures: 4, Tables: 2 Supplemental File: 1

详情

DOI: 10.1093/noajnl/vdag115
Journal ref: Neuro-Oncology Advances 2026. Published online May 2, 2026

英文摘要

Background: Radiogenomics allows identification of radiological biomarkers for genomic phenotypes. In glioblastoma, these biomarkers could potentially complement patient stratification strategies. We aim to develop and analytically validate radiological biomarkers that capture immune cell signatures within IDH-wildtype glioblastoma microenvironment using radiogenomic analysis. Methods: This was a retrospective multicenter study using curated open-access anonymized imaging and genomic data from TCGA-GBM, CPTAC, IvyGAP, REMBRANDT and CGGA datasets. Imaging data consisted of MRI-based radiomic features extracted from necrotic core, enhancing and edema regions of deep learning-based auto-segmented tumors. Radiomic feature selections were performed using nested cross-validated LASSO. Support vector machine and ensemble models were trained using seventeen immune and cell-specific score labels extracted from deconvoluted transcriptomic data using pan-cancer and glioblastoma immune signature matrices as reference standards. Seventeen classifier models trained in three cross-cohort strategies were validated on three held-out datasets assessing stability and generalizability. Results: One-hundred-and-seventy-six patients were included in the study. The immune-related radiomic signatures obtained after feature selection were shape, first order and higher order radiomic features. Models predicting macrophage subtype immune signature showed stable mean performance on balanced accuracy (0.67) and precision (0.89) metrics for three independent holdout datasets with ensemble model outperforming support vector machine model. Conclusion: Radiogenomic models non-invasively predicted the macrophage subtype M0 immune signature in IDH-wildtype glioblastoma. These biomarkers have the potential to stratify patients for immunotherapy within prospective glioblastoma clinical trials.

URL PDF HTML ☆

赞 0 踩 0

2605.10277 2026-05-12 cs.LG math.AP stat.ML

Generalization Error Bounds for Picard-Type Operator Learning in Nonlinear Parabolic PDEs

Koichi Taniguchi, Sho Sonoda

AI总结本文研究了基于Duhamel-Picard迭代的非线性抛物型偏微分方程（PDE）解算子的学习问题，提出了一个抽象的状态转移模型框架，并推导了与实现无关的泛化误差界，将实现误差与估计误差分离。核心贡献在于揭示了增加Picard迭代深度可以减少截断误差，同时避免熵估计误差的无界增长，并将该理论应用于环面上非线性热方程的Picard型傅里叶神经算子实现中。

Comments 39 pages

2605.10275 2026-05-12 cs.CV

PolarVSR: A Unified Framework and Benchmark for Continuous Space-Time Polarization Video Reconstruction

Chenggong Li, Yidong Luo, Junchao Zhang, Boxin Shi, Degui Yang

AI总结本文提出了一种统一的时空极化视频重建框架PolarVSR，旨在解决主流分焦平面极化成像中从混色阵列中恢复极化参数这一具有挑战性的逆问题。该方法通过联合建模空间与时间上的极化方向，并结合极化感知的隐式神经表示，实现了连续且高保真的超分辨率重建。同时，引入了基于光流引导的极化变化损失以优化极化动态，还建立了首个大规模彩色DoFP极化视频基准数据集，实验结果验证了方法的有效性。

2605.10272 2026-05-12 cs.LG cs.AI cs.CR cs.DC

DP-LAC: Lightweight Adaptive Clipping for Differentially Private Federated Fine-tuning of Language Models

Haaris Mehmood, Jie Xu, Karthikeyan Saravanan, Rogier Van Dalen, Mete Ozay

AI总结本文提出了一种轻量级自适应剪切方法DP-LAC，用于在联邦学习中实现语言模型的差分隐私微调。该方法通过私有直方图估计初步确定剪切阈值，并在训练过程中动态调整该阈值，而无需额外消耗隐私预算或引入新超参数。实验表明，DP-LAC在准确率上优于现有自适应剪切方法和传统DP-SGD，平均提升了6.6%。

Comments Accepted at ICASSP 2026

2605.10269 2026-05-12 cs.CV cs.RO

Increasing the Efficiency of DETR for Maritime High-Resolution Images

Tinsae Yehuala, Hao Cheng, Ville Lehtola

AI总结本文针对海上无人水面船舶（USV）安全导航中高分辨率图像的目标检测需求，研究如何提升DETR模型的检测效率。作者采用基于状态空间模型（SSM）的Vision Mamba（ViM）作为主干网络，结合序列化图像分块处理与特征金字塔网络设计，有效提升了对远距离、小目标及大尺度变化的检测能力。通过引入令牌剪枝等优化策略，该方法在保持检测精度的同时显著降低了计算和内存开销，为海上实时目标检测提供了更高效可靠的解决方案。

2605.10268 2026-05-12 cs.CL cs.AI

MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

Baibei Ji, Xiaoyang Weng, Juntao Li, Zecheng Tang, Yihang Lou, Min Zhang

AI总结为了解决长上下文推理任务中标准注意力机制带来的二次复杂度问题，研究提出了一种基于智能体记忆的方法，通过动态更新记忆来线性处理文档块。然而，现有方法在记忆覆盖过程中可能丢失潜在证据，为此，MemReread 引入了基于问题分解和重读的机制，在最终记忆不足时触发重读，从而恢复被提前丢弃的间接事实，支持非线性推理同时保持文档理解的逻辑流程。此外，研究还引入强化学习框架，提升模型对长文本的外推能力，并根据任务复杂度动态控制重读次数，有效平衡了性能与计算开销。

2605.10261 2026-05-12 cs.AI cs.LG

E-TCAV: Formalizing Penultimate Proxies for Efficient Concept Based Interpretability

Hasib Aslam, Muhammad Ali Chattha, Muhammad Taha Mukhtar, Muhammad Imran Malik, Andreas Dengel, Sheraz Ahmed

AI总结本文提出了一种名为E-TCAV的高效概念解释框架，用于解决传统TCAV方法在计算开销、层间评分不一致和统计稳定性方面的不足。通过深入分析TCAV方法的三个关键方面，E-TCAV利用最终层作为早期层的快速代理，显著提升了计算效率，并在多个网络架构和数据集上验证了其有效性。实验表明，最终层与倒数第二层在TCAV评分上高度一致，且评分方差主要由潜在分类器的选择引起，从而为高效模型调试和实时概念引导训练提供了可行方案。

2605.10257 2026-05-12 cs.AI

Towards Autonomous Railway Operations: A Semi-Hierarchical Deep Reinforcement Learning Approach to the Vehicle Rescheduling Problem

Alberto Castagna, Stefan Zahlner, Adrian Egli, Christian Eichenberger, Daniel Boos, Manuel Meyer, Anton Fuxjager

AI总结本文研究了如何通过半分层深度强化学习方法解决铁路车辆调度中的突发干扰问题，以提升铁路运营的自动化水平。该方法针对铁路操作中的调度与路径规划任务，设计了专门的动作和观测空间，使策略能够专注于不同层次的决策，从而有效应对调度决策少而路径更新频繁的问题。实验表明，该方法在协调性、资源利用率和系统鲁棒性方面优于传统启发式方法和单一强化学习方法，显著提高了列车到达目的地的数量，并在高密度交通下保持了较低的死锁率。

2605.10256 2026-05-12 cs.SD cs.AI

A Cold Diffusion Approach for Percussive Dereverberation

Dimos Makris, András Barják, Maximos Kaliakatsos-Papakostas

AI总结本文提出了一种用于打击乐去混响的冷扩散框架，针对当前音频去混响研究主要集中在语音而忽视打击乐信号的问题，通过将混响建模为从无混响信号到混响信号的确定性退化过程，逐步生成混响效果。研究引入了两种逆过程参数化方法，并采用UNet和扩散Transformer作为模型架构，在包含真实和电子鼓录音的数据集上进行训练与评估，实验表明该方法在多个指标上优于现有的基于分数和条件扩散的基线模型。

Comments Accepted for the 2026 IEEE World Congress on Computational Intelligence, IJCNN Track, 21-26 June 2026, Maastricht, the Netherlands

2605.10251 2026-05-12 cs.CV

Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation

Ishan Narayan

AI总结本文提出了一种名为GraphDepth的单目深度估计架构，通过在卷积编码器-解码器框架中引入图神经网络（GNN），有效建模了局部卷积难以捕捉的长距离空间关系。该方法在ResNet-101 U-Net主干网络的多尺度位置嵌入高效的GraphSAGE层，并结合通道注意力门控跳跃连接和异方差不确定性估计模块，提升了深度估计的精度与鲁棒性。实验表明，与基于Transformer的混合模型相比，GraphDepth在保持相近全局感受野的同时，计算效率更高，且在多个基准数据集上取得了优异的性能表现。

2605.10247 2026-05-12 cs.LG

Teaching LLMs to See Graphs: Unifying Text and Structural Reasoning

Dario Vajda

AI总结本文研究如何使大语言模型（LLMs）更有效地处理图结构数据，提出了一种名为Graph Transformer Language Model（GTLM）的新架构，该模型通过在注意力模块中引入图感知的注意偏差，使LLM能够原生处理图结构，同时避免了传统方法中将文本属性压缩为单一标记所带来的语义瓶颈。GTLM参数效率极高，仅增加0.015%的参数即可实现与图神经网络（GNN）相当甚至更优的性能，并在多个图结构基准测试中表现出色，展示了其在图推理任务中的优越性。

2605.10242 2026-05-12 cs.LG cs.AI

When Normality Shifts: Risk-Aware Test-Time Adaptation for Unsupervised Tabular Anomaly Detection

Wei Huang, Hezhe Qiao, Kailai Zhang, Zaisheng Ye, Yu-Ming Shang, Xiangling Fu

AI总结本文研究了无监督表格异常检测中因训练数据有限导致的正常模式不完整问题，并提出了一个风险感知的测试时自适应方法RTTAD。该方法通过训练阶段的协作双任务学习建立鲁棒的正常先验，并在测试阶段引入测试时对比学习模块，利用高置信度的伪正常样本进行模型更新，同时抑制异常样本的影响，从而有效应对正常模式偏移问题。实验表明，RTTAD在15个表格数据集上取得了最先进的检测性能。

Comments 13 pages, 6 figures

2605.10241 2026-05-12 cs.CL cs.LG

Building Korean linguistic resource for NLU data generation of banking app CS dialog system

Jeongwoo Yoon, On-yu Park, Changhoe Hwang, Gwanghoon Yoo, Eric Laporte, Jeesun Nam

AI总结本文旨在构建用于银行客户服务对话系统自然语言理解（NLU）的韩语标注训练数据，提出了一种名为FIAD的金融领域标注数据集，并基于银行应用评论语料库识别出韩语请求语句中的三种语言模式，利用局部语法图（LGGs）生成涵盖多种意图和实体的标注数据。实验表明，基于FIAD生成的数据训练的模型在意图和主题识别任务上取得了较高的准确率，验证了该资源的有效性。