arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.06916 2026-05-11 cs.LG

Tyche: One Step Flow for Efficient Probabilistic Weather Forecasting

Fan Xu, Yuan Gao, Kun Wang, Rui Su, Fenghua Ling, Hao Wu, Wanli Ouyang

AI总结 Tyche 是一种用于高效概率天气预报的一步式条件流模型，旨在解决传统扩散模型在长期预测中计算成本高的问题。该方法通过一个目标感知的平均速度流，直接将高斯噪声映射到未来天气状态，仅需一次函数评估即可完成预测。Tyche 采用改进的 rectification 目标函数和基于 Swin 结构的变压器网络，有效保持了高维地理场的空间细节并提升了计算效率，实验表明其在预报精度和不确定性量化方面优于现有方法。

2605.06912 2026-05-11 cs.CV

Advancing Reliable Synthetic Video Detection: Insights from the SAFE Challenge

Kirill Trapeznikov, Gabriel Mancino-Ball, Jonathan Li, Paul Cummer, Jai Aslam, Danial Samadi Vahdati, Tai Nguyen, Matthew C. Stamm, Peter Bautista, Michael Davinroy, Laura Cassani, Jill Crisman

AI总结随着生成式视频技术的快速发展，检测和识别合成视频的需求日益迫切。为应对这一挑战，研究者组织了SAFE合成视频检测竞赛，旨在评估算法在盲测条件下区分真实与合成视频的能力。竞赛数据集包含13种现代高质量合成视频模型生成的内容，并与来自21个不同来源的真实视频进行匹配，共涵盖6000个样本、20小时的视频内容。研究分析了当前检测方法的泛化能力和鲁棒性，发现尽管在跨模型检测方面取得进展，但对后期处理痕迹仍存在明显脆弱性。

2605.06911 2026-05-11 cs.LG

Dual-Scale Temporal Fusion Reveals Structured Predictability in Subseasonal-to-Seasonal Temperature Prediction

Elnaz Bashir, Jiali Wang, Lin Yan

AI总结该研究探讨了次季节到季节（S2S）温度预测中的结构化可预测性问题，指出预测能力不仅与预测时效相关，还受时间尺度、空间异质性和大尺度模式一致性的影响。研究提出了一种双尺度学习框架，通过分离历史气候背景与近期天气演变，并进行空间自适应融合，实现了30至90天范围内的稳定温度预测。研究发现，预测能力的分布随季节和地理条件系统性变化，并通过拓扑感知结构约束进一步提升了预测场的空间一致性，为改进S2S预测系统提供了新的理论基础。

Comments 10 pages, 5 figures

2605.06908 2026-05-11 cs.LG cs.AI

Same Signal, Opposite Meaning: Direction-Informed Adaptive Learning for LLM Agents

Ziming Li, Jiatan Huang, Xiaoguang Guo, Guilin Wang, Chuxu Zhang

AI总结本文研究了大语言模型代理在测试时如何根据需要动态调整计算资源的问题，指出现有方法基于固定方向的信号（如置信度或不确定性）来判断是否需要额外计算，但这种方向在不同环境和模型中可能反转，导致性能下降。为此，作者提出了DIAL方法，通过无信号依赖的反事实探索学习状态特征的效用方向，从而在多个环境中实现了更优的性能与计算成本的平衡。

2605.06906 2026-05-11 cs.LG

TraXion: Rethinking Pre-training Frameworks for Mobility and Beyond

Shang-Ling Hsu, Mark Tenzer, Cyrus Shahabi, Khurram Shafique

AI总结本文提出了一种名为TraXion的预训练框架，旨在更准确地建模人类移动性及其他多实体时空事件流（MESES）数据。与传统将轨迹视为句子的方法不同，TraXion基于移动性数据的三个关键特性——事件的联合分布、用户的持续签名以及用户间的共现关系——设计了专门的预训练目标和架构。实验表明，TraXion在多个公开移动性数据集上优于任务特定基线，并且其方法同样适用于企业认证日志和重症监护预测等不同领域，展示了其广泛适用性。

Comments 31 pages, 2 figures

2605.06905 2026-05-11 cs.LG

Conservative Flows: A New Paradigm of Generative Models

Eshed Gal, Md Shahriar Rahim Siddiqui, Moshe Eliasof, Eldad Haber

AI总结本文提出了一种生成模型的新范式——保守流，通过离散随机动力学在数据分布不变的前提下进行生成，初始状态来自数据支持的状态而非噪声。研究开发了两种保持概率的采样机制，能够在现有模型基础上直接使用，实验表明该方法在合成数据和真实图像数据集上均优于原有生成方法。

2605.06903 2026-05-11 cs.CL cs.AI

MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

Chenjun Li, Cheng Wan, Johannes C. Paetzold

AI总结随着大型语言模型广泛应用于日常写作流程，可靠检测AI生成文本对于维护学术诚信和内容审核至关重要。为此，研究提出了MELD，一种通过多任务均衡学习增强检测性能的AI生成文本检测器。MELD通过引入生成器家族、攻击类型和来源域的辅助监督任务，并结合不确定性加权损失和对抗训练策略，显著提升了检测的鲁棒性与泛化能力。实验表明，MELD在多个基准测试中表现优异，尤其在低误报率和对抗攻击场景下具有明显优势。

Comments 17 pages, 6 figures

详情

英文摘要

Large language models are now embedded in everyday writing workflows, making reliable AI-generated text detection important for academic integrity, content moderation, and provenance tracking. In practice, however, a detector must do more than achieve high aggregate AUROC on clean, in-distribution human and AI text: it should remain robust to attacks and adversarial rewrites, transfer to unseen generators and domains, and operate at low false-positive rates (FPR). Most existing detectors optimize a single AI/Human objective, giving the representation little incentive to learn generator, attack, or domain structure once the binary task saturates. We introduce MELD (Multi-Task Equilibrated Learning Detector), a deployable detector for AI-generated text that enriches binary detection with auxiliary supervision. MELD attaches generator-family, attack-type, and source-domain heads to a shared encoder, and balances the four losses with learned homoscedastic uncertainty weights. To improve robustness, an EMA teacher predicts on clean inputs while an attack-augmented student is distilled toward the teacher. MELD further uses a hard-negative pairwise ranking loss to enlarge the score margin between AI-generated texts and the most confusable human texts. At inference, all auxiliary heads are discarded, giving MELD the same interface and cost as a standard detector. On the public RAID leaderboard, MELD is the strongest open-source detector and is competitive with leading commercial models, especially under attack and at low FPR. Across standard held-out benchmarks, MELD matches or outperforms supervised baselines. We further introduce MELD-eval, a held-out evaluation pool built from recent chat models released by four major LLM providers. Without additional finetuning, MELD achieves 99.9% TPR at 1% FPR on MELD-eval, while many baselines degrade sharply.

URL PDF HTML ☆

赞 0 踩 0

2605.06902 2026-05-11 cs.LG

Streaming Adversarial Robustness in Fuzzy ARTMAP: Mechanism-Aligned Evaluation, Progressive Training, and Interpretable Diagnostics

Shane Cairns, Leonardo Enzo Brito da Silva, Sasha Petrenko, Donald C. Wunsch, Jian Liu

AI总结本文研究了模糊ARTMAP（Fuzzy ARTMAP）在流式数据场景下的对抗鲁棒性，提出了一种与该模型机制对齐的评估方法、渐进式训练策略以及可解释的诊断工具。通过引入与ARTMAP机制匹配的可微白盒攻击方法WB-Softmax，揭示了传统离线对抗训练在流式模型中可能失效的问题，并发现渐进式分阶段选择训练能提供最强的无回放鲁棒性。研究还表明，ARTMAP明确的类别几何结构有助于诊断模型中的分离崩溃和匹配得分反转等关键问题，为流式原型学习模型的对抗鲁棒性研究提供了机制对齐的框架。

Comments 35 pages, 3 figures, 11 tables. Preprint submitted to Neural Networks

2605.06901 2026-05-11 cs.CL

Reflections and New Directions for Human-Centered Large Language Models

Caleb Ziems, Dora Zhao, Rose E. Wang, Matthew Jörke, Ahmad Rushdi, Advit Deepak, Sunny Yu, Anshika Agarwal, Harshvardhan Agarwal, Gabriela Aranguiz-Dias, Aditri Bhagirath, Justine Breuch, Huanxing Chen, Ruishi Chen, Sarah Chen, Haocheng Fan, William Fang, Cat Gonzales Fergesen, Daniel Frees, Tian Gao, Ziqing Huang, Vishal Jain, Yucheng Jiang, Kirill Kalinin, Su Doga Karaca, Arpandeep Khatua, Teland La, Isabelle Levent, Miranda Li, Xinling Li, Yongce Li, Angela Liu, Minsik Oh, Nathan J. Paek, Anthony Qin, Emily Redmond, Michael J. Ryan, Aadesh Salecha, Xiaoxian Shen, Pranava Singhal, Shashanka Subrahmanya, Mei Tan, Irawadee Thawornbut, Michelle Vinocour, Xiaoyue Wang, Zheng Wang, Henry Jin Weng, Pawan Wirawarn, Shirley Wu, Sophie Wu, Yichen Xie, Patrick Ye, Sean Zhang, Yutong Zhang, Cathy Zhou, Yiling Zhao, James Landay, Diyi Yang

AI总结随着大语言模型在多个领域广泛应用，如何在技术能力之外优先考虑人类需求成为关键问题。本文提出了一种以人为本的大语言模型（HCLLMs）开发框架，融合自然语言处理、人机交互和负责任AI的视角，强调在模型设计、数据获取、训练、评估及部署的每个阶段都应充分考虑人类的价值观与目标。文章还通过案例研究探讨了HCLLMs对未来工作模式的影响，为开发者提供了系统性的指导与建议。

2605.06898 2026-05-11 cs.AI

Self-Programmed Execution for Language-Model Agents

Luke J. O'Connor

AI总结本文提出了一种名为自编程执行（SPE）的语言模型智能体架构，其核心思想是让模型自身完成状态转移的协调工作，而非依赖固定的调度程序。为此，作者引入了基于Lisp的Spell语言，使程序能够自我编辑和重新评估，从而实现无固定调度策略的智能体行为。实验表明，即使未针对SPE进行训练的前沿模型也能在该框架下完成复杂的智能体任务，展示了语言模型无需固定调度策略即可作为智能体运行的潜力。

2605.06897 2026-05-11 cs.CL cs.AI cs.HC cs.MM cs.SD eess.AS

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

Maximillian Chen, Xuanming Zhang, Michael Peng, Zhou Yu, Alexandros Papangelis, Yohan Jo

AI总结随着物联网设备的普及，需要能够处理复杂用户交互的语音接口。本文提出MIST，一个基于语音的多模态工具调用数据集，用于智能家居场景中的代码生成任务，旨在解决现实环境中设备状态跟踪、时空约束和混合主动交互等挑战。研究发现，开放权重和闭源大语言模型在MIST任务上表现存在明显差距，且当前先进闭源模型仍有较大提升空间。MIST及其生成框架的发布，为相关研究提供了重要资源。

Comments Project Page: https://billyzhang24kobe.github.io/mist-smarthome/

2605.06895 2026-05-11 cs.AI

Mitigating Cognitive Bias in RLHF by Altering Rationality

Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth

AI总结本文研究如何使模型对不完美的人类反馈更具鲁棒性，提出了一种通过动态调整理性参数来缓解强化学习中人类反馈偏差的方法。该方法基于对人类判断中认知偏差的识别，利用大型语言模型作为评估者，在奖励学习过程中动态调整理性参数，从而降低偏差判断的影响。实验表明，该方法能有效提升下游模型的合理性，即使在面对存在强烈偏见的偏好数据集时也表现良好。

2605.06892 2026-05-11 cs.CV

Not All Tokens Need 40 Steps: Heterogeneous Step Allocation in Diffusion Transformers for Efficient Video Generation

Ernie Chu, Vishal M. Patel

AI总结扩散变换器（DiTs）在视频生成任务中取得了最先进的质量，但其计算成本高昂，因为传统推理过程对序列中的每个标记使用相同数量的去噪步骤。本文提出了一种无需训练的推理算法——异构步分配（HSA），根据时空标记的运动动态为其分配不同的步数预算，从而提升效率。HSA引入了键值缓存同步机制和缓存欧拉更新方法，在保证全局上下文的前提下实现高效推理，并在多个视频生成任务中表现出色，尤其在加速比高的情况下显著优于现有方法。

Comments Project page: https://ernestchu.github.io/hsa

2605.06891 2026-05-11 cs.CV cs.LG

Towards Fairness under Label Bias in Image Segmentation: Impact, Measurement and Mitigation

Aditya Parikh, Stella Frank, Sneha Das, Aasa Feragen

AI总结该研究探讨了图像分割任务中标签偏差（label bias）对公平性的影响，提出了一种无需干净标注即可检测和缓解标签偏差的方法。基于自信学习（Confident Learning）的改进方法，通过比较模型的置信预测与训练标签，识别出标签偏差的方向和程度，传统重叠度量如Dice系数无法做到这一点。研究还发现标签偏差会影响编码器特征空间中的子群可分性，并利用这一特性进行偏差缓解，实验表明该框架在多种数据集上有效提升了模型的公平性。

2605.06889 2026-05-11 cs.CV

TriDE: Triangle-Consistent Translation Directions for Global Camera Pose Estimation

Francisco Chen, Yiran Wang, Yunpeng Shi

AI总结本文提出了一种名为 TriDE 的方法，用于全局相机位姿估计中的全局翻译方向估计。该方法通过利用相机三角一致性作为高阶验证信号，解决了现有方法中成对翻译方向独立处理导致的局部合理但全局不一致的问题。TriDE 通过在方向与其关联的加权三角形之间进行信息传递，有效修正不可靠的成对方向，实验表明其在真实图像图上显著提升了方向精度和后续相机位姿估计效果。

Comments 32 pages, 6 figures

2605.06886 2026-05-11 cs.CL

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

Mullosharaf K. Arabov

AI总结本文介绍了TajPersLexon，一个包含40,112个塔吉克-波斯语词和短语对的平行词典资源，用于跨书写系统下的低资源自然语言处理任务，如词项检索、转写和对齐。研究对比了三种方法，包括轻量级混合管道、神经序列到序列模型和检索方法，结果表明该任务在低资源环境下是可解的，神经和检索方法在top-1准确率上达到98-99%。作者进一步提出了一种可解释的混合模型，在OCR后校正任务中达到96.4%的准确率，展示了其在准确率与效率之间的良好平衡。

Comments Published in The Proceedings of the First Workshop on NLP and LLMs for the Iranian Language Family (SilkRoadNLP 2026), pages 29-37, Rabat, Morocco. Association for Computational Linguistics

2605.06885 2026-05-11 cs.LG cs.AI

Don't Retrain, Align: Adapting Autoregressive LMs to Diffusion LMs via Representation Alignment

Fred Zhangzhi Peng, Alexis Fox, Anru R. Zhang, Alexander Tong

AI总结本文研究了如何将自回归语言模型（AR-LM）适配为扩散语言模型（DLM），提出了一种无需重新训练语言表示的表示对齐方法。通过在扩散模型中对齐自回归模型的隐藏状态，该方法在不改变模型结构和不引入适配器的情况下，显著加速了训练过程，尤其在数据量较少时表现优异。实验表明，语言表示可以在不同生成顺序之间迁移，表示对齐为训练扩散语言模型提供了一种简单有效的解决方案。

Comments Code available at https://github.com/pengzhangzhi/Open-dLLM

2605.06882 2026-05-11 cs.AI

How Well Do LLMs Perform on the Simplest Long-Chain Reasoning Tasks: An Empirical Study on the Equivalence Class Problem

Chun Zheng, Lianlong Wu, Bingqian Li, Lvting Liu, Yi Zhou

AI总结本文评估了大语言模型（LLMs）在最简单的长链推理任务——等价类问题（ECP）上的表现，该任务要求根据给定的等价关系判断两个变量是否相等。研究比较了推理型和非推理型LLMs在不同变量数量、连接概率等因素下的性能，发现非推理模型在ECP任务中表现不佳，而推理模型虽然显著优于前者，但仍难以完全解决问题。研究还发现，非推理模型在连接概率接近临界点时表现最差，而推理模型则在图直径最大的情况下面临最大挑战，揭示了两类模型在处理此类任务时的不同困难来源。

Comments 9 pages, 5 figures

2605.06879 2026-05-11 cs.LG q-bio.QM

Better Protein Function Prediction by Modeling Survivorship Bias

Zhongmou Chao, Poompol Buathong, Ekaterina Selivanovitch, Susan Daniel, Peter I. Frazier

AI总结该研究针对蛋白质功能预测中因自然选择导致的幸存者偏差问题，提出了一种基于进化知识的正例-未标记例学习框架Evo-PU。该方法通过建模序列在进化过程中的可观测性差异，区分因非功能而未被观察到的序列与因突变路径罕见而未出现的序列，从而提升预测准确性。实验表明，Evo-PU在多个单物种和多物种数据集上均优于现有方法，展示了其在蛋白质功能预测中的有效性与广泛适用性。

Comments 29 pages, 12 figures, 3 tables

2605.06877 2026-05-11 cs.LG

Temporal Attention for Adaptive Control of Euler-Lagrange Systems with Unobservable Memory

Giansalvo Cirrincione, Adriano Fagiolini

AI总结本文研究了在存在不可观测内部状态的欧拉-拉格朗日系统中，如何实现具有自适应控制能力的摩擦补偿。为解决传统控制方法在非马尔可夫状态下的收敛性问题，作者提出了一种基于自注意力机制的元控制架构，通过处理近期运动历史来动态生成控制增益。实验表明，在短记忆场景下该方法显著优于深度Transformer基线，但在长记忆场景下则表现出稳定性不足的问题，从而引出了在强化学习过程中动态调整注意力头数量的改进方向。

2605.06876 2026-05-11 cs.CV

AdpSplit: Error-Driven Adaptive Splitting for Faster Geometry Discovery in 3D Gaussian Splatting

Yongjae Lee, Jingxing Li, Abhay Kumar Yadav, Rama Chellappa, Deliang Fan

AI总结在3D高斯溅射（3DGS）中，自适应密度控制通常通过固定数量的随机分裂来增长高斯点数量以发现场景结构，但传统方法因需要多次分裂迭代而影响训练效率。本文提出AdpSplit，一种基于误差驱动的自适应分裂方法，根据L1像素误差区域统计信息动态决定分裂数量和参数初始化，从而减少分裂次数，加快训练速度，同时保持渲染质量。实验表明，AdpSplit在多个数据集上显著提升了加速版3DGS的训练效率，减少了9.2%至22.3%的训练时间。

2605.06874 2026-05-11 cs.LG

On the Divergence of Differential Temporal Difference Learning without Local Clocks

David Antrobius, Shangtong Zhang

AI总结本文研究了在无本地时钟的情况下，差分时间差分学习（DTDL）在平均奖励强化学习中的收敛性问题。作者通过构造反例，证明了在平均奖励设置中，使用本地时钟的DTDL算法即使收敛，使用全局时钟时也可能发散，从而揭示了与折扣奖励设置中不同的收敛性质。该结果解决了Wan等人和Blaser等人提出的开放问题，为理解不同时间差分学习方法的收敛性提供了重要见解。

2605.06868 2026-05-11 cs.LG math.OC

When Descent Is Too Stable: Event-Triggered Hamiltonian Learning to Optimize

Yi Wang, Chandrajit Bajaj

AI总结本文研究了固定预算非凸优化中因局部下降过于稳定而导致的失败问题，即优化器可能在接近局部极小值后耗尽预算而无法进一步改进。为此，作者提出了SHAPE方法，通过引入结构化自适应端口哈密顿系统，在增强相空间中结合梯度信息进行动态优化决策。该方法能够在检测到局部平衡时触发事件更新，从而在保持系统被动性结构的同时，提升优化性能，实验表明其在固定预算任务中优于传统固定策略优化器。

2605.06866 2026-05-11 cs.LG math.OC

A Finite-Iteration Theory for Asynchronous Categorical Distributional Temporal-Difference Learning

Ege C. Kaya, Abolfazl Hashemi

AI总结本文研究了异步分类分布时差学习的有限迭代理论，填补了现有理论与实际算法之间的关键差距。作者针对两种分类策略评估方法，分别在Cramér几何和最大均值差异几何下，建立了其在异步单状态更新下的收敛性分析。通过合适的等距嵌入，这两种方法被转化为在状态逐个最大范数下具有收缩性质的随机逼近递归，从而在i.i.d.和马尔可夫采样下提供了折扣问题以及固定时间步长非折扣问题的有限迭代收敛保证。

Comments 53 pages

2605.06865 2026-05-11 cs.LG

Dataset Watermarking for Closed LLMs with Provable Detection

Pengrun Huang, Kamalika Chaudhuri, Yu-Xiang Wang

AI总结本文研究了如何为闭源大语言模型（LLMs）设计可检测的数据集水印，以识别模型是否使用了特定数据集进行训练。作者提出了一种通过增加随机词对共现频率来嵌入数据集级水印的方法，并利用统计检验在模型生成的文本中检测该水印。实验表明，该方法在微调阶段能可靠检测水印，且在数据混合场景下仍保持有效性，同时不影响基准数据集的实用性和语义完整性。

2605.06864 2026-05-11 cs.LG

Multi-Objective Multi-Agent Bandits: From Learning Efficiency to Fairness Optimization

John Wang, Mengfan Xu

AI总结本文研究了在随机奖励环境下具有多目标的多智能体多臂老虎机问题（MO-MA-MAB），其中智能体通过时变图进行通信，并观察异构奖励向量。为解决高效学习与公平性优化的双重目标，作者提出了两种算法：一种基于帕累托后悔的探索策略，另一种结合社会福利的纳什社会福利优化方法。实验表明，所提方法在效率和公平性方面均优于现有基线，性能提升分别达到约100%和50%。

2605.06863 2026-05-11 cs.RO cs.HC

Bi3: A Biplatform, Bicultural, Biperson Dataset for Social Robot Navigation

Andrew Stratton, Phani Teja Singamaneni, Pranav Goyal, Rachid Alami, Christoforos Mavrogiannis

AI总结本文提出了Bi3数据集，用于研究社交机器人在受限实验室环境中与人群的导航交互。该数据集通过创新的实验设计，记录了机器人与两人之间的近距离导航互动，并包含多种导航算法、两种机器人平台以及来自美国和法国共74名参与者的多模态数据。Bi3在交互密度和人类速度等指标上表现出独特的多样性与建模复杂性，为理解人机协作及训练高密度环境下的机器人导航模型提供了重要资源。

Comments ICRA 2026

2605.06861 2026-05-11 cs.LG cs.NA math.NA

Christoffel-DPS: Optimal sensor placement in diffusion posterior sampling for arbitrary distributions

James Rowbottom, Nick Huang, Carola-Bibiane Schönlieb, Ben Adcock

AI总结本文研究了在扩散后验采样（DPS）框架下，如何为任意分布设计最优的传感器布置策略。传统方法基于高斯假设，难以处理复杂分布，而现有生成模型引导的传感器选择方法要么需要大量传感器，要么沿用经典方法，难以匹配现代恢复模型的需求。为此，作者提出了一种基于Christoffel函数的分布无关传感器布置框架Christoffel-DPS，能够为任意信号分布提供理论保证的采样策略，并在多种非高斯分布的基准测试中表现出优于现有方法的性能。

2605.06859 2026-05-11 cs.CV cs.AI cs.LG

Knowledge Transfer Scaling Laws for 3D Medical Imaging

Ho Hin Lee, Dongna Du, Chu Wang, Yuankai Huo, Shi Gu, James C. Gee, Yifan Wu

AI总结该研究探讨了三维医学影像领域中知识迁移的缩放规律，发现不同影像模态（如CT、MRI、PET）在预训练过程中具有不同的学习速率，且知识迁移具有显著的不对称性。基于这一观察，研究将数据分配建模为缩放律优化问题，揭示了“枢纽-岛屿”结构：某些高度可迁移的模态作为枢纽能显著提升其他模态，而孤立模态则需要直接投入。实验表明，基于知识迁移的数据分配策略在预训练效果和下游临床任务中均优于传统比例采样方法。

Comments 20 Pages

2605.06850 2026-05-11 cs.LG cs.AI

How to Compress KV Cache in RL Post-Training? Shadow Mask Distillation for Memory-Efficient Alignment

Rui Zhu, Weiheng Bai, Qiushi Wu, Yang Ren, Haixu Tang, Yuchu Liu

AI总结本文研究了如何在强化学习后训练过程中高效压缩键值缓存（KV Cache），以解决长上下文推理任务中因KV缓存占用过大而带来的内存瓶颈问题。作者提出了一种名为“Shadow Mask Distillation”的方法，通过引入影子掩码蒸馏机制，在保持策略探索能力的同时减少内存消耗。该方法有效缓解了压缩带来的策略偏移问题，提升了强化学习训练的稳定性和效率，为大语言模型的高效微调提供了新的解决方案。