arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.14374 2026-05-15 cs.LG cs.AI math.OC

Optimal Pattern Detection Tree for Symbolic Rule-Based Classification

Young-Chae Hong, Yangho Chen

发表机构 * Amazon（亚马逊）

AI总结本文提出了一种基于混合整数规划的符号规则分类模型——最优模式检测树（OPDT），用于在二分类任务中发现数据中的单一最优模式。为融入先验知识和合规要求，作者进一步引入了分支结构约束（BSC）框架，使决策者能够将领域知识直接嵌入模型。该方法通过优化覆盖范围并最小化误分类的假阳性率，能够在合理时间内于中等规模数据集上发现具有最优性保证的隐藏模式。

Comments Published in Transactions on Machine Learning Research (TMLR). 26 pages, 4 figures. OpenReview URL: https://openreview.net/forum?id=RJ6eMDcDCv

Journal ref Transactions on Machine Learning Research (2026)

2605.14368 2026-05-15 cs.CL cs.AI

Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

Injin Kong, Hyoungjoon Lee, Yohan Jo

发表机构 * Graduate School of Data Science, Seoul National University（首尔国立大学数据科学研究生院）； Department of Biosystems & Biomaterials Science and Engineering, Seoul National University（首尔国立大学生物系统与生物材料科学与工程系）

AI总结本文研究了如何在预训练语言模型中有效引入扩散模型，提出了一种基于几何引导的扩散-变压器混合模型DiHAL。该方法通过几何特征评估各层的适合性，选择合适的隐藏状态接口，并用扩散桥替换下层变压器结构，保留上层结构和语言模型头部。实验表明，基于几何评分的隐藏状态恢复方法在保持相同训练预算的情况下，优于传统的连续扩散方法，展示了在语言模型中进行扩散替换的可行性。

2605.14366 2026-05-15 cs.CL cs.LG

Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax

Zeli Su, Ziyin Zhang, Zhou Liu, Xuexian Song, Zhankai Xu, Longfei Zheng, Xiaolu Zhang, Rong Fu, Guixian Xu, Wentao Zhang

发表机构 * Minzu University of China（中国民族大学）； Ant Group（蚂蚁集团）； Shanghai Jiao Tong University（上海交通大学）； University of Macau（澳门大学）； Peking University（北京大学）； Institute of Automation, Chinese Academy of Sciences（中国科学院自动化研究所）； Hainan International College, Minzu University of China（中国民族大学海南国际学院）

AI总结该研究探讨了在低资源语言扩展中，如何避免因微调大语言模型而导致的“对齐税”问题。作者提出了一种基于语义奖励的强化学习方法，通过组相对策略优化（GRPO）在嵌入层进行语义对齐，而非传统的似然最大化，从而在保持模型通用能力的同时提升低资源语言的表现。实验表明，该方法在藏汉机器翻译和藏语新闻生成任务中有效缓解了对齐税，生成质量更高且更具可迁移性。

Comments ACL 2026 Findings

2605.14365 2026-05-15 cs.LG cs.AI

LoMETab: Beyond Rank-1 Ensembles for Tabular Deep Learning

Changryeol Choi, Hyewon Park, Yujin Kwon, Gowun Jeong

发表机构 * CJ Logistics（CJ物流）

AI总结在表格深度学习中，主流方法的性能趋于接近，难以形成明显优劣之分。为此，本文提出 LoMETab，一种基于秩-$r$ 的隐式集成模型，通过引入可调节的秩和初始化尺度，增强模型的多样性与表达能力。实验表明，LoMETab 能有效提升模型间的预测差异性，并在分类和回归任务中展现出良好的控制能力与性能表现。

2605.14359 2026-05-15 cs.LG cs.AI

RQ-MoE: Residual Quantization via Mixture of Experts for Efficient Input-Dependent Vector Compression

Zhengjia Zhong, Shuyan Ke, Zaizhou Lin, Jiaqi Song, Hongyi Lan, Hui Li

发表机构 * Key Laboratory of Multimedia Trusted Perception（多媒体可信感知关键实验室）； Efficient Computing, Ministry of Education of China, Xiamen University, Xiamen, China（高效计算，中华人民共和国教育部，厦门大学，厦门，中国）

AI总结该论文提出了一种名为RQ-MoE的残差量化框架，通过结合专家混合模型与双流量化机制，实现了针对输入数据动态调整的高效向量压缩。该方法解决了现有动态量化方法在解码过程中存在的瓶颈问题，支持并行解码并提升了表达能力。实验表明，RQ-MoE在重建与检索任务中达到了当前最优或接近最优的性能，同时解码速度比以往方法快6到14倍。

Comments To appear at ICML 2026

2605.14358 2026-05-15 cs.AI cs.LG

Uncovering the Representation Geometry of Minimal Cores in Overcomplete Reasoning Traces

Sanjoy Chowdhury, Dinesh Manocha

发表机构 * University of Maryland, College Park, USA（马里兰大学学院公园分校）

AI总结该研究探讨了语言模型在生成长链推理过程时，其中有多少步骤对于最终预测是必要的。通过定义“最小核心”——即能保持最终答案或预测分布的最小步骤子集，并引入压缩比、冗余度、步骤必要性等指标，研究发现推理轨迹普遍存在冗余，平均有46%的步骤可以移除而不影响答案，且必要性高度集中于少数几步。研究还表明，最小核心能更清晰地揭示推理的几何结构，并在不同模型间具有较好的迁移能力，为理解语言模型推理的本质提供了新视角。

2605.14352 2026-05-15 cs.CL

Ideology Prediction of German Political Texts

Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek

发表机构 * Bundestag（议会）； Wahl-O-Mat（选举工具）； German Media Datasets（德国媒体数据集）

AI总结本文研究如何利用基于Transformer的模型对德语政治文本进行意识形态预测，将文本的政治立场映射到从-1到1的连续光谱上。研究构建了四个不同来源的语料库，包括德国联邦议院的会议记录、在线决策工具Wahl-O-Mat、33家不同政治倾向的报纸以及议员的推文，并通过对比多个预训练模型，发现DeBERTa-large和Gemma2-2B在不同数据集上表现出色。研究结果表明，模型结构和领域特定数据的可用性对政治偏见估计具有重要影响。

Comments This paper has been accepted for the upcoming 20th International AAAI Conference on Web and Social Media (ICWSM 2026)

详情

英文摘要

Elections represent a crucial milestone in a nation's ongoing development. To better understand the political rhetoric from various movements, ranging from left to right, we propose a transformer-based model capable of projecting the political orientation of a text on a continuous left-to-right spectrum, represented by a normalized scalar d between -1 and 1. This approach enables analysts to focus on specific segments of the political landscape, such as conservatives, while excluding liberal and far-right movements. Such a task can only be achieved with multiclass classifiers, provided that the desired orientation is incorporated within one of their predefined classes. To determine the most suitable foundation model among 13 candidate transformers for this task, we constructed four distinct corpora. One corpus comprised annotated plenary notes from the German Bundestag, while another was based on an official online decision-making tool, Wahl-O-Mat. The third corpus consisted of articles from 33 newspapers, each identified by its political orientation, and the fourth included 535,200 tweets from 597 members of the 20th and 21st German Bundestag. To mitigate overfitting, we used two distinct corpora for training and two for testing, respectively. For in-domain performance, DeBERTa-large achieved the highest F1 score F1=0.844 as well as for the X (Twitter) out-of-domain test ACC=0.864. Regarding the newspaper out-of-domain test, Gemma2-2B excelled (MAE = 0.172). This study demonstrates that transformer models can recognize political framing in German news at the level of public opinion polls. Our findings suggest that both the model architecture and the availability of domain-specific training data can be as influential as model size for estimating political bias. We discuss methodological limitations and outline directions for improving the robustness of bias measurement.

URL PDF HTML ☆

赞 0 踩 0

2605.14350 2026-05-15 cs.LG

Distributionally Robust Multi-Task Reinforcement Learning via Adaptive Task Sampling

Nicholas E. Corrado, Wenyuan Huang, Josiah P. Hanna

发表机构 * Computer Sciences Department（计算机科学系）； University of Wisconsin – Madison（威斯康星大学麦迪逊分校）

AI总结多任务强化学习旨在训练一个智能体同时高效优化多个任务的性能，但传统方法在联合优化所有任务时常导致学习不平衡，即对简单任务学习迅速而对困难任务进展缓慢。本文提出了一种新的自适应任务采样方法DRATS，通过动态优先采样最难完成的任务，以解决数据分配不均的问题。该方法将多任务学习建模为一个可行性问题，并通过最小化最差任务回报差距的最小最大目标进行优化，在多个基准测试中表现出更高的数据效率和最差任务性能。

2605.14346 2026-05-15 cs.CV

Learning with Semantic Priors: Stabilizing Point-Supervised Infrared Small Target Detection via Hierarchical Knowledge Distillation

Yuanhang Yao, Ping Qian, Zhu Liu, Long Ma, Weimin Wang

发表机构 * School of Software Technology, Dalian University of Technology（大连理工大学软件学院）

AI总结本文研究了如何在点监督下稳定红外小目标检测任务，针对轻量级检测器语义信息不足导致的伪标签噪声和训练不稳定问题，提出了一种基于分层视觉基础模型（VFM）的知识蒸馏框架。该方法通过双层优化过程，结合语义条件仿射调制（SCAM）和动态协作学习策略，有效提升了检测精度和训练稳定性。实验表明，该方法在多种红外小目标检测模型上均取得了显著改进。

2605.14343 2026-05-15 cs.LG math.ST stat.ML stat.TH

Nearest-Neighbor Radii under Dependent Sampling

Yuanyuan Gao, Yilong Hou, Zhexiao Lin

发表机构 * Department of Statistics, University of California, Berkeley, CA 94720, USA（加州大学伯克利分校统计系）； Department of Biostatistics, University of California, Berkeley, CA 94720, USA（加州大学伯克利分校生物统计学系）

AI总结本文研究了在依赖采样条件下最近邻方法的邻域半径性质，突破了传统独立采样假设。通过分析强混合依赖观测，论文建立了多项式混合条件下的几乎处处收敛结果，并在几何混合条件下给出了精确的非渐近矩界，这些界依赖于局部内在维度而非环境维度，从而适用于高维流形数据。实验验证了理论结果，表明即使在依赖采样下，最近邻几何结构仍具有信息性。

Comments 33 pages

2605.14341 2026-05-15 cs.CV

AnyBand-Diff: A Unified Remote Sensing Image Generation and Band Repair Framework with Spectral Priors

Zuopeng Zhao, Ying Liu, Xiaoyu Li, Su Luo, Lu Li, Wenwen Liu

发表机构 * School of Computer Science and Technology / School of Artificial Intelligence, China University of Mining and Technology（计算机科学与技术学院/人工智能学院，中国矿业大学）； Mine Digitization Engineering Research Center of the Ministry of Education（教育部矿山数字化工程研究中心）； Jiangsu Provincial Industrial Technology Engineering Center for Intelligent Sensing（江苏省智能感知与应急物联网地下空间工业技术工程中心）

AI总结本文提出了一种名为 AnyBand-Diff 的统一遥感图像生成与波段修复框架，旨在解决现有扩散模型在生成遥感图像时忽略物理规律导致的光谱失真和辐射不一致问题。该方法引入了基于光谱先验的扩散模型架构，结合双随机掩码策略和物理引导采样机制，能够从任意波段子集恢复完整的光谱信息，并保证生成图像的辐射一致性。实验表明，AnyBand-Diff 在生成可靠遥感图像和实现高精度光谱重建方面表现出色，为物理感知的生成模型在地球观测领域的应用提供了新思路。

2605.14340 2026-05-15 cs.SD

Refining Pseudo-Audio Prompts with Speech-Text Alignment for Text-Only Domain Adaptation in LLM-Based ASR

Ryo Magoshi, Takashi Maekaku, Yusuke Shinohara

发表机构 * Kyoto University, Japan（京都大学，日本）； LY Corporation, Japan（LY公司，日本）

AI总结基于大语言模型（LLM）的自动语音识别系统通过连接音频编码器和LLM取得了良好性能，但在面对新领域时，由于缺乏配对的语音和文本数据，其适应能力受到限制。本文提出一种新的框架，通过显式建模语音与文本的对齐关系，生成更具表现力的伪音频提示，从而有效弥合模态间的差距，提升目标领域的适应效果。实验表明，该方法在整体错误率和未登录词覆盖率方面均优于现有纯文本适应方法。

Comments Submitted to Interspeech 2026

2605.14337 2026-05-15 cs.CV

IG-Diff: Complex Night Scene Restoration with Illumination-Guided Diffusion Model

Yifan Chen, Fei Yin, Chunle Guo, Chongyi Li, Yujiu Yang

发表机构 * Tsinghua Univerisity（清华大学）； NanKai University（南开大学）

AI总结在夜间复杂场景中，由于光照不足和多种退化因素共存，图像恢复面临较大挑战。本文提出一种基于光照引导的扩散模型（IG-Diff），通过引入光照引导模块，有效提升了低光环境下多退化因素共存场景的图像恢复效果。同时，作者构建了包含多种退化因素的复杂夜间场景数据集，为相关研究提供了重要资源。

Comments Accepted by CGI-2025

2605.14333 2026-05-15 cs.CV

InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation

Yang Yue, Fangyun Wei, Tianyu He, Jinjing Zhao, Zanlin Ni, Zeyu Liu, Jiayi Guo, Lei Shi, Yue Dong, Li Chen, Ji Li, Gao Huang, Dong Chen

发表机构 * Tsinghua University（清华大学）； Microsoft Research（微软研究院）

AI总结本文研究了在基于离散分词的自回归图像生成中如何提升文本和人脸的生成质量。作者指出，传统分词器因过度下采样和量化导致细粒度结构丢失，难以保留可读的文本和清晰的人脸特征。为此，他们提出了InsightTok，通过引入局部、内容感知的感知损失，有效提升了文本和人脸的保真度，并在不牺牲整体重建质量的前提下显著优于现有分词器。该方法在自回归图像生成模型InsightAR中表现出色，生成的图像具有更清晰的文本和更真实的人脸细节。

Comments Code and checkpoints are available at https://github.com/LeapLabTHU/InsightTok

2605.14327 2026-05-15 cs.LG cs.AI

AIM-DDI: A Model-Agnostic Multimodal Integration Module for Drug-Drug Interaction Prediction

Yerin Park, Sangseon Lee

发表机构 * Department of Artificial Intelligence, Inha University（人工智能系，Inha大学）

AI总结药物-药物相互作用（DDI）预测在计算生物医学中具有重要意义，但如何对训练过程中未见的药物进行准确预测仍是一个关键挑战。本文提出了一种与模型无关的多模态集成模块AIM-DDI，它将结构、化学和语义等异构药物信息映射到共享的潜在空间中，并通过统一的融合模块建模模态间依赖关系，从而实现跨不同DDI预测架构的通用集成。实验表明，AIM-DDI在多种DDI模型和DrugBank数据集上均能有效提升预测性能，尤其在两个药物均未在训练中出现的最困难场景下表现突出。

2605.14326 2026-05-15 cs.CV

D2-CDIG: Controlled Diffusion Remote Sensing Image Generation with Dual Priors of DEM and Cloud-Fog

Zuopeng Zhao, Ying Liu, Kanyaphakphachsorn Pharksuwan, Su Luo, Xiaoyu Li, Maocai Ning

发表机构 * China University of Mining and Technology（中国矿业大学）

AI总结本文提出了一种名为D2-CDIG的可控扩散遥感图像生成框架，旨在解决现有方法在复杂地形和大气条件下生成图像准确性与自然度不足的问题。该方法通过融合数字高程模型（DEM）和云雾信息作为双重先验知识，实现了对地表特征和大气现象的精确控制，并引入了可调节的云雾滑块以灵活控制云层厚度和分布。实验表明，D2-CDIG在图像质量、细节丰富度和真实感方面相比传统方法有显著提升，为遥感大模型训练和下游任务提供了高质量的数据支持。

2605.14323 2026-05-15 cs.LG cs.AI cs.CL

Dynamic Latent Routing

Fangyuan Yu, Xin Su, Amir Abdullah

发表机构 * Thoughtworks AI Labs (TAILS)（Thoughtworks AI实验室（TAILS））

AI总结本文研究了在时间变化奖励函数的马尔可夫决策过程（MDP）中，子策略的时间拼接问题。作者提出了通用迪杰斯特拉搜索（GDS），并证明通过时间组合中间最优子策略可以恢复全局最优目标达成策略。基于GDS的“搜索、选择、更新”原则，作者进一步提出了动态潜在路由（DLR）方法，该方法在单次训练阶段联合学习离散潜在编码、路由策略和模型参数。实验表明，在低数据微调场景下，DLR在多个数据集和模型上表现优异，优于传统的监督微调方法。

2605.14318 2026-05-15 cs.AI cs.LG

Semantic Feature Segmentation for Interpretable Predictive Maintenance in Complex Systems

Emilio Mastriani, Alessandro Costa, Federico Incardona, Kevin Munari, Sebastiano Spinello

发表机构 * INAF, Osservatorio Astrofisico di Catania（意大利国家天文研究所，卡塔尼亚天文台）

AI总结本文研究了复杂系统中可解释的预测性维护问题，针对监测变量异构性和冗余性导致的故障信息模糊和模型可解释性下降的问题，提出了一种语义特征分割框架。该方法将监测特征空间分解为保留主要预测信息的规范分量和包含结构边缘信号的残差分量，并基于领域知识定义功能分组以反映系统运行机制。实验表明，规范分量在预测风险和结构稳定性方面均优于残差分量和传统方法，实现了预测性能与语义可解释性的兼顾。

Comments 18 pages, 7 figures. Under review at Neural Computing and Applications. Keywords: semantic segmentation, change point detection, fault anticipation

详情

英文摘要

Predictive maintenance in complex systems is often complicated by the heterogeneity and redundancy of monitored variables,which can obscure fault-relevant information and reduce model interpretability. This work proposes a semantic feature segmentation framework that decomposes the monitored feature space into a canonical component,expected to retain the dominant predictive information, and a residual component containing structurally peripheral signals. The segmentation is defined through domain informed criteria and sets up monitoring variables into functional groups reflecting operational mechanisms such as throughput,latency,pressure,network activity,and structural state. To evaluate the effectiveness of this decomposition, we adopt a predictive perspective in which expected predictive risk is used as an operational proxy for task-relevant information. Experimental results obtained through time-aware cross-validation show that the canonical space consistently achieves lower predictive risk than the residual space across multiple temporal configurations, indicating that the semantic segmentation concentrates the most relevant information for fault anticipation. In addition, the canonical segments exhibit significantly stronger intra-segment coherence than inter-segment dependence, and this structural organization remains stable after redundancy reduction. When compared with the full feature space and with a Principal Component Analysis (PCA) representation, the canonical space carries out comparable predictive performance and furthermore preserves the semantic meaning of the original variables. These findings suggest that semantic feature segmentation provides an interpretable and information-preserving decomposition of monitoring signals, enabling competitive predictive performance without sacrificing the operational interpretability required in predictive maintenance applications.

URL PDF HTML ☆

赞 0 踩 0

2605.14317 2026-05-15 cs.LG physics.ao-ph

Guided Diffusion Sampling for Precipitation Forecast Interventions

Ayumu Ueyama, Kazuhiko Kawamoto, Hiroshi Kera

发表机构 * Chiba University（千叶大学）； National Institute of Informatics（国家信息研究所）

AI总结本文研究如何通过数据驱动的天气预报模型实现对极端降水的干预，以减少其带来的负面影响。作者提出了一种基于梯度引导的扩散采样方法，在扩散天气预报模型中引导采样轨迹，从而在保持大气状态分布一致性的同时实现降水减少。该方法从垂直结构、潜空间轨迹偏差和跨模型可迁移性三个角度评估干预的物理合理性，实验表明其在减少极端降水方面优于对抗性扰动方法。

Comments 12+7 pages, 7+2 figures

2605.14315 2026-05-15 cs.CV

TurboVGGT: Fast Visual Geometry Reconstruction with Adaptive Alternating Attention

David Huang, Guile Wu, Chengjie Huang, Bingbing Liu, Dongfeng Bai

发表机构 * Huawei Noah’s Ark Lab（华为诺亚实验室）； University of Toronto（多伦多大学）； Foundation Model Department, Huawei（华为基础模型部门）

AI总结本文提出了一种名为 TurboVGGT 的新型方法，用于实现快速的多视角三维重建。该方法采用自适应交替注意力机制的视觉几何变换器，在保证重建质量的同时显著提升了计算效率。通过自适应稀疏全局注意力和帧内注意力的结合，TurboVGGT 能够有效捕捉跨帧的全局关系和单帧内的局部细节，实验表明其在多个三维重建基准上表现优异，兼具速度与精度。

Comments Technical Report

2605.14310 2026-05-15 cs.CV

CoRDS: Coreset-based Representative and Diverse Selection for Streaming Video Understanding

Ailar Mahdizadeh, Puria Azadi, Muchen Li, Xiangteng He, Leonid Sigal

发表机构 * University of British Columbia（不列颠哥伦比亚大学）； Vector Institute（向量研究所）

AI总结在流式视频理解中，如何高效压缩视觉-语言模型的键值缓存以支持长期推理是一个重要问题。本文将KV缓存压缩视为一个核心集选择问题，提出了一种基于几何覆盖和多样性优化的方法，通过联合优化键和值空间的表示，同时保留检索结构和输出相关信息。该方法引入正交性驱动的多样性准则，提升缓存子集的多样性，实验表明在多个开源模型和视频基准上优于传统启发式压缩方法。

2605.14305 2026-05-15 cs.CL

Factorization-Error-Free Discrete Diffusion Language Model via Speculative Decoding

Xun Fang, Yunchen Li, Hang Yuan, Zhou Yu

发表机构 * East China Normal University（华东师范大学）； Beijing Zhongguancun Academy（北京中关村学院）

AI总结本文提出了一种无因子化误差的离散扩散语言模型（FeF-DLLM），旨在解决传统方法中因独立预测清洁令牌而导致的因子化误差问题。该方法通过精确的前缀条件因子化替代独立预测，更有效地保留令牌间的依赖关系，并结合推测解码技术，在保持并行预测能力的同时提升推理速度。实验表明，该方法在多个基准数据集上平均提升了5.04个百分点的准确性，同时实现了3.86倍的加速。

2605.14304 2026-05-15 cs.LG cs.AI

Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry

Zuyuan Zhang, Carlee Joe-Wong, Tian Lan

发表机构 * The George Washington University（乔治·华盛顿大学）； Carnegie Mellon University（卡内基梅隆大学）

AI总结该研究提出了一种名为矩阵空间强化学习（MSRL）的新方法，旨在通过复用已有轨迹片段中的局部转移几何结构，提升强化学习中的组合泛化能力。MSRL 使用正定矩阵描述符来捕捉轨迹片段的一阶和二阶统计特性，从而在抽象的矩阵空间中实现代数组合与知识迁移。实验表明，该方法在有限预算下取得了优于现有方法的性能，展示了其在跨任务学习中的有效性。

2605.14301 2026-05-15 cs.LG stat.ML

Language-Induced Priors for Domain Adaptation

Qiyuan Chen, Jiayu Zhou, Raed Al Kontar

发表机构 * University of Michigan（密歇根大学）

AI总结在领域适应中，当目标域数据稀缺时，传统统计方法难以区分相关与不相关的源域，导致负迁移。本文提出利用目标域的专家文本描述，构建语言诱导先验（LIP），将其与期望最大化算法结合，以识别相关源域。该方法兼容多种参数模型，能够在目标信号弱时引导源域选择，并随着数据积累逐步优化，理论分析表明其在正确先验下具有接近理想冷启动性能，并保持渐近一致性。实验验证了该框架在估计、预测和决策任务中的有效性。

2605.14297 2026-05-15 cs.LG cs.AI math.OC stat.ML

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients

Matias Alvo, Daniel Russo, Yash Kanoria

发表机构 * Graduate School of Business Columbia University（哥伦比亚大学商学院）

AI总结本文研究了在混合离散-连续动作空间中的强化学习问题，这类问题常见于机器人控制和优化领域。为了解决传统策略梯度方法在高维空间中梯度质量差的问题，作者提出了混合策略优化（HPO）方法，通过结合路径梯度和得分函数梯度，实现无偏混合梯度估计，从而有效应对离散动作和非光滑动态带来的挑战。实验表明，HPO在库存控制和切换线性二次调节器等任务中显著优于PPO算法，且在连续动作维度增加时优势更加明显。

2605.14294 2026-05-15 cs.AI cs.LG

Precise Verification of Transformers through ReLU-Catalyzed Abstraction Refinement

Hengjie Liu, Zhenya Zhang, Jianjun Zhao

发表机构 * Kyushu University（九州大学）； National Institute of Informatics（国家信息研究所）

AI总结随着Transformer模型在安全关键领域的广泛应用，其形式化验证变得尤为重要。与传统神经网络相比，Transformer的推理过程涉及复杂的计算，如自注意力层中的点积操作，使得验证极具挑战性。本文提出了一种基于ReLU催化的抽象细化方法，通过精确表示点积的非线性边界，结合凸松弛技术，提升了验证精度，并在两种经典验证方法的基础上扩展出适用于Transformer的高效且精确的验证框架，实验表明该方法在保持较高效率的同时显著提升了验证精度。

Comments 32 pages, 6 figures, the full version of the paper accepted by CAV 2026

2605.14280 2026-05-15 cs.LG stat.ML

TILT: Target-induced loss tilting under covariate shift

Kakei Yamamoto, Martin J. Wainwright

发表机构 * Lab for Information and Decision Systems（信息与决策系统实验室）； Statistics and Data Science Center（统计与数据科学中心）； EECS, Massachusetts Institute of Technology（麻省理工学院电子工程与计算机科学系）； Mathematics and EECS, Massachusetts Institute of Technology（数学与电子工程与计算机科学系, 麻省理工学院）

AI总结本文提出了一种名为TILT的无监督域适应方法，用于处理协变量偏移问题。该方法通过引入一个新颖的目标函数，将源域预测器分解为两个部分，并在有标签的源域数据上拟合这两个部分，同时在无标签的目标域数据上对辅助部分施加惩罚，最终得到的主预测器用于目标域预测。理论分析表明，该方法在总体层面能够隐式地诱导相对重要性加权，并且具有良好的稳定性与泛化能力。实验结果表明，TILT在多个任务中优于仅使用源域训练、精确重要性加权以及相对密度比等基线方法。

Comments 32 pages, 17 figures. Submitted to NeurIPS 2026

2605.14278 2026-05-15 cs.CV

KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

Ruicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

发表机构 * Tsinghua University（清华大学）； HKUST（香港科技大学）； Video Rebirth Project（视频重生项目）

AI总结本文提出了一种名为KVPO的ODE原生在线组相对策略优化框架，用于通过键值语义探索对流式自回归视频生成器进行对齐。该方法通过将多样性探索的来源从随机噪声转移到历史键值缓存，构建语义多样且保持数据流形的生成分支，从而提升长期一致性。同时，KVPO引入基于轨迹速度能量的替代策略，实现了与ODE原生形式完全一致的奖励加权对比目标，在多个实验设置中显著提升了视频的视觉质量、运动质量和文本-视频对齐效果。

2605.14277 2026-05-15 cs.AI cs.GT

Parallelizing Counterfactual Regret Minimization

Juho Kim, Tuomas Sandholm

发表机构 * CMU Strategic Machine, Inc.（CMU战略机器公司）； Strategy Robot, Inc.（策略机器人公司）； Optimized Markets, Inc.（优化市场公司）

AI总结本文研究了如何将反事实遗憾最小化（CFR）算法并行化，以加速求解大规模不完美信息博弈。作者将CFR重新表述为一系列线性代数操作，从而能够利用现有的并行计算技术提升其效率。该方法适用于多种CFR变体，如CFR+、折扣CFR和预测型CFR。实验表明，基于GPU的实现比CPU上的现有实现快达四千倍。

Comments This paper contains and extends ideas that were originally in arxiv:2408.14778

2605.14274 2026-05-15 cs.CV

CreFlow: Corrective Reflow for Sparse-Reward Embodied Video Diffusion RL

Zhenyang Ni, Yijiang Li, Ruochen Jiao, Simon Sinong Zhan, Sipeng Chen, Zhenfei Yin, Minshuo Chen, Philip Torr, Zhaoran Wang, Qi Zhu

发表机构 * Northwestern University（西北大学）； University of California, San Diego（加州大学圣地亚哥分校）； University of Oxford（牛津大学）

AI总结该论文提出了一种名为CreFlow的在线强化学习框架，用于改进稀疏奖励下的具身视频生成模型。研究针对现有视频强化学习奖励机制无法准确反映任务逻辑的问题，引入了基于组合逻辑约束的奖励模型，将任务要求转化为线性时序逻辑约束，从而提供更准确的奖励信号和局部错误信息。CreFlow通过两个关键设计——信用感知的NFT损失和校正重流损失，有效提升了高维视频生成的训练效率与稳定性，实验表明其在双臂操作任务中的执行成功率提升了23.8个百分点。

AI 大模型

视觉与机器人

科学与医疗