arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11609 2026-05-13 cs.LG cs.AI cs.CL

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Guobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu

AI总结该研究针对基于策略的自蒸馏方法在数学推理任务中效果不佳的问题，提出了一种新的反向自蒸馏方法（AntiSD）。通过点互信息分析，发现特权上下文导致教师模型对已知结构部分过于自信，而忽视了推理过程中的关键思考步骤。AntiSD通过最大化学生与教师之间的分布差异，反转了传统自蒸馏的梯度方向，从而更有效地提升推理能力。实验表明，该方法在多个大规模语言模型上显著减少了训练步骤并提升了推理准确率。

2605.11608 2026-05-13 cs.CL cs.AI cs.LG

PRISM: A Geometric Risk Bound that Decomposes Drift into Scale, Shape, and Head

Chieh-Yen Lin, Shao-Hua Sun

AI总结 PRISM 是一种用于分析训练后大语言模型变体（如量化、LoRA适配和蒸馏模型）表示漂移的几何风险界方法，能够将漂移分解为尺度、形状和输出头三个独立可测的维度。该方法利用模型的线性输出头和近等距的主干结构，推导出目标模型与变体之间的交叉熵风险上界，从而不仅判断性能退化，还能识别退化的具体原因。实验表明，PRISM 在多个基准测试中表现出优异的变体排序能力，并且其形状正则化项在防止灾难性遗忘方面优于经验回放等传统方法。

2605.11605 2026-05-13 cs.CV cs.AI

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

Chaeyoung Jung, Kyeongha Rho, Joon Son Chung

AI总结多模态大语言模型（Omni-LLMs）在处理多模态输入时面临较高的计算开销，因此需要有效的token减少方法。本文提出了一种名为ContextGuard的推理时token剪枝框架，通过保留广泛的视听上下文并去除跨模态冗余，从而在保证性能的同时减少输入token数量。该方法基于音频预测粗粒度视觉语义，剪枝可由音频恢复的视频token，并保留能提供音频无法表达的局部视觉细节的token，同时合并时间上相似的视频token以进一步压缩。实验表明，ContextGuard在多个基准测试中优于现有方法，且在不需微调下游模型的情况下实现了较高的剪枝比例与性能。

2605.11603 2026-05-13 cs.AI

GAR: Carbon-Aware Routing for LLM Inference via Constrained Optimization

Disha Sheshanarayana, Rajat Subhra Pal, Manjira Sinha, Tirthankar Dasgupta

AI总结随着大语言模型（LLM）部署规模的扩大，如何在异构模型池中平衡响应质量与计算成本成为关键问题。本文提出了一种基于约束优化的绿色感知路由（GAR）框架，旨在在保证准确率和延迟约束的前提下，最小化每请求的碳排放。GAR通过自适应约束优化和轻量级估计器实现实时路由决策，并结合在线算法与启发式变体，有效降低碳足迹同时保持模型性能，为可持续的大语言模型推理提供了理论支持与实践方案。

2605.11601 2026-05-13 cs.CL cs.AI

DiffScore: Text Evaluation Beyond Autoregressive Likelihood

Wen Lai, Yingli Shen, Dingnan Jin, Qing Cui, Jun Zhou, Maosong Sun, Alexander Fraser

AI总结本文提出了一种名为 DiffScore 的文本评估方法，旨在克服自回归语言模型在文本评价中因位置偏差导致的局限性。DiffScore 基于掩码大型扩散语言模型，通过全双向上下文对每个词进行评分，从而消除位置偏倚，并建立从局部流畅性到整体连贯性的评估层次。该方法还引入了多时间步质量分析和双向PMI分解等诊断工具，实验表明其在多个基准测试中优于传统自回归模型。

2605.11598 2026-05-13 cs.LG cs.AI cs.DB q-bio.QM

EpiCastBench: Datasets and Benchmarks for Multivariate Epidemic Forecasting

Madhurima Panja, Danny D'Agostino, Huitao Li, Tanujit Chakraborty, Nan Liu

AI总结随着数据驱动方法在公共卫生决策中的广泛应用，传染病预测已成为重要研究领域。为解决现有研究缺乏高质量多变量预测基准的问题，本文提出了EpiCastBench，一个包含40个精心挑选的多变量传染病数据集的大型基准框架，涵盖多种传染病和地理区域，具有不同的时间粒度、序列长度和稀疏性。研究通过统一的评估设置对15种多变量预测模型进行了系统比较，所有数据和代码均已公开，有助于推动传染病预测方法的发展与验证。

2605.11595 2026-05-13 cs.AI

Native Explainability for Bayesian Confidence Propagation Neural Networks: A Framework for Trusted Brain-Like AI

Georgios Makridis, Georgios Fatouros, John Soldatos, George Katsis, Dimosthenis Kyriazis

AI总结本文针对欧盟人工智能法案对高风险AI系统提出的透明性与可信性要求，提出了一种用于贝叶斯置信传播神经网络（BCPNN）的原生可解释性框架。该框架通过建立BCPNN特有的可解释性分类体系和十六个架构级解释原语，实现了对模型决策过程的系统性解释，并引入了五个配置级解释原语以支持预部署阶段的审计。研究为BCPNN在边缘设备上的可信部署提供了理论支持，推动了类脑AI在工业物联网中的应用。

Comments 8 pages

2605.11594 2026-05-13 cs.CV

PointForward: Feedforward Driving Reconstruction through Point-Aligned Representations

Cheng Chi, Xianqi Wang, Hongcheng Luo, Mingfei Tu, Gangwei Xu, Zehan Zhang, Bing Wang, Guang Chen, Hangjun Ye, Sida Peng, Xin Yang, Haiyang Sun

AI总结本文提出了一种名为PointForward的前馈驾驶场景重建框架，通过点对齐的表示方法解决现有方法在多视角一致性与动态实例建模方面的不足。该方法在世界坐标系中初始化稀疏的3D查询点，并通过时空融合多视角图像信息，实现单次前馈过程中的显式跨视角一致性。此外，通过引入场景图显式组织动态实例，结合3D边界框实现实例级运动传播，从而获得时序一致的动态重建结果。实验表明，PointForward在大规模驾驶数据集上达到了最先进的性能。

2605.11592 2026-05-13 cs.LG cs.AI cs.CR

SoK: Unlearnability and Unlearning for Model Dememorization

Mengying Zhang, Derui Wang, Ruoxi Sun, Xiaoyu Xia, Shuang Hao, Minhui Xue

AI总结本文系统研究了机器学习模型中数据遗忘相关的两种关键技术——不可学习性（unlearnability）和模型遗忘（unlearning），旨在防止敏感数据被滥用。研究揭示了这两种方法在浅层遗忘、相互影响及理论保障方面的共性与缺陷，并首次提出了统一的分类框架、实证分析以及理论保证，为实现更深层次的数据遗忘提供了理论基础和实践指导。

Comments The first two authors contributed equally

2605.11591 2026-05-13 cs.CV

Logit-Attention Divergence: Mitigating Position Bias in Multi-Image Retrieval via Attention-Guided Calibration

Mingtao Xian, Yifeng Yang, Qinying Gu, Xinbing Wang, Nanyang Ye

AI总结多模态大语言模型在多图像跨模态检索任务中表现出色，但存在严重的顺序偏差问题，即预测结果受输入顺序影响而非语义相关性。本文提出了一种名为“Logit-Attention Divergence”的现象，指出输出logits存在偏差，而内部注意力图仍能准确对齐相关视觉信息，揭示了现有校准方法的局限性。基于此，作者提出了一种无需训练、基于注意力引导的去偏框架，利用模型内部的注意力信号在推理阶段进行实例级校正，仅需少量校准数据且计算开销极小。实验表明，该方法显著提升了模型对输入顺序的鲁棒性，在多个基准测试中取得了最先进的性能。

2605.11586 2026-05-13 cs.LG math.OC

Learning Weakly Communicating Average-Reward CMDPs: Strong Duality and Improved Regret

Kihyun Yu, Beomhan Baek, Dabeen Lee

AI总结本文研究了在弱连通假设下无限时间平均奖励约束马尔可夫决策过程（CMDPs）的学习问题。作者首先建立了有限状态和动作空间下弱连通平均奖励CMDPs在平稳策略上的强对偶性，即使在缺乏线性规划形式且问题非凸的情况下，也通过分析状态占用测度的几何结构证明了强对偶性的成立。其次，基于该结果，提出了一种剪裁价值迭代的原始-对偶算法，用于学习弱连通平均奖励线性CMDPs，该算法在 regret 和约束违反方面达到了 $\widetilde{\mathcal{O}}(T^{2/3})$ 的上界，优于现有最佳结果，并通过强对偶性分析实现了对复合拉格朗日 regret 的分解。

2605.11585 2026-05-13 cs.CV cs.LG

A Mixture Autoregressive Image Generative Model on Quadtree Regions for Gaussian Noise Removal via Variational Bayes and Gradient Methods

Shota Saito, Yuta Nakahara, Kohei Horinouchi, Naoki Ichijo, Manabu Kobayashi, Toshiyasu Matsushima

AI总结本文研究了灰度图像的高斯噪声去除问题，提出了一种结合四叉树区域划分模型与混合自回归模型的概率图像生成方法，并将基于最大后验估计的去噪问题转化为变分下界最大化问题。通过交替应用变分贝叶斯方法和梯度方法，开发了一种新的优化算法，其中梯度更新规则可解析计算，无需数值近似。实验验证了该算法的有效性，并指出了进一步改进的方向。

2605.11582 2026-05-13 cs.CL

Efficient LLM-based Advertising via Model Compression and Parallel Verification

Wenxin Dong, Chang Gao, Guanghui Yu, Xuewu Jiao, Mingqing Hu, Qiang Fu, Peng Xu, Penghui Wei, Hui Xu, Yue Xing, Shuanglong Li, Lin Liu

AI总结本文研究了如何高效地在广告场景中部署大语言模型（LLM），以解决其推理延迟高和计算成本大的问题。提出了一种高效的生成式定向框架，结合自适应分组量化、层自适应分层稀疏化和前缀树并行验证等方法，在保证生成质量的同时显著加速LLM推理。实验表明，该框架在两个真实广告场景中实现了显著的加速效果，且质量下降可控，具备实际部署的可行性。

Comments 10 pages, 7 figures, industry paper

2605.11581 2026-05-13 cs.CL

Ada-MK: Adaptive MegaKernel Optimization via Automated DAG-based Search for LLM Inference

Wenxin Dong, Mingqing Hu, Guanghui Yu, Qiang Fu, Peng Xu, Hui Xu, Yue Xing, Xuewu Jiao, Shuanglong Li, Lin Liu

AI总结在商业在线广告系统中，大语言模型（LLM）的实时推理需要严格控制端到端延迟。为解决解码阶段内核启动开销大的问题，研究提出Ada-MK方法，通过基于DAG的自动搜索优化MegaKernel的执行路径，结合三维共享内存约束模型和异构混合推理引擎，有效降低了共享内存使用并消除了运行时分支开销，显著提升了推理吞吐量和延迟表现。

Comments 10 pages, 8 figures

2605.11578 2026-05-13 cs.CV

The Midas Touch for Metric Depth

Yu Ma, Zizhan Guo, Zuyi Xiong, Haoran Zhang, Yi Feng, Hongbo Zhao, Hanli Wang, Rui Fan

AI总结本文提出了一种名为MTD的方法，旨在解决相对深度估计在实际应用中因缺乏度量尺度、局部不一致和计算效率低而受限的问题。该方法通过极稀疏的3D数据将相对深度转换为度量深度，采用分段恢复策略和基于不连续性感知的测地成本像素级优化，有效消除了局部尺度不一致。MTD具有良好的泛化能力，显著提升了深度补全和深度估计的精度，且其轻量化的模块化设计便于在多种下游3D任务中部署和集成。

2605.11577 2026-05-13 cs.CL

BitLM: Unlocking Multi-Token Language Generation with Bitwise Continuous Diffusion

Shaobin Zhuang, Yuang Ai, Jiaming Han, Xiaohui Li, Huaibo Huang, Xiangyu Yue, Xuefeng Hu, Kun Xu, Yali Wang, Hao Chen

AI总结传统自回归语言模型逐个生成文本标记，难以有效捕捉自然语言中多标记单元的结构特性，限制了模型的表达能力和推理效率。本文提出 BitLM，通过将每个标记表示为固定长度的二进制码，并在每个块内并行去噪多个标记，从而在保持左到右因果注意力的同时实现块内联合词法决策。BitLM 用位级去噪替代传统大词汇表 softmax，将标记生成重构为紧凑二进制空间中的迭代承诺过程，显著提升了预训练效率和推理速度，展示了逐标记生成并非语言模型的必然要求，而是接口选择，为新一代语言模型架构提供了新方向。

Comments 12 pages, 4figures, 1 table

2605.11574 2026-05-13 cs.CL cs.AI cs.LG

Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation

Pruthvinath Jeripity Venkata

AI总结本文研究了大型语言模型在处理训练知识与矛盾文档之间冲突时的三种不同情境，并提出了一个三阶段的预测框架。核心方法区分了参数强度与参数唯一性这两个正交维度，并通过大量实验验证了模型在不同任务场景下的行为差异。研究发现，模型在任务相关性引导下对文档的依赖程度显著变化，揭示了参数确定性在事实性任务中的主导作用。

Comments 10 pages, 13 tables, no figures. 9,970 API calls across five frontier models

2605.11571 2026-05-13 cs.LG

FedOUI: OUI-Guided Client Weighting for Federated Aggregation

Alberto Fernández-Hernández, Jose I. Mestre, Cristian Pérez-Corral, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí

AI总结本文提出FedOUI，一种基于过拟合-欠拟合指示器（OUI）的联邦学习聚合方法，通过客户端模型在固定探测数据集上的激活特征评估其训练过程中的结构特性，并据此动态调整客户端在聚合中的权重。该方法无需标签信息，能够在强非独立同分布和存在噪声客户端的场景下提升聚合质量，实验表明其在异构性较强时表现尤为突出，展示了模型内部激活结构在联邦学习中的潜在价值。

2605.11570 2026-05-13 cs.LG

OUI as a Structural Observable: Towards an Activation-Centric View of Neural Network Training

Alberto Fernández-Hernández, Jose I. Mestre, Cristian Pérez-Corral, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí

AI总结本文提出将过拟合-欠拟合指示器（OUI）视为神经网络训练过程中内部结构变化的一个可观测指标，强调应从激活函数的角度理解训练动态。研究发现，OUI作为一种早期、无需标签的基于激活的信号，能够提前揭示网络训练进入良好或不良状态的趋势，在监督学习、强化学习和在线控制等多种场景中表现出良好的预测能力。这一发现为构建以激活为中心的训练动态理论提供了实证基础。

2605.11569 2026-05-13 cs.AI cs.LG

Dual-Temporal LSTM with Hybrid Attention for Airline Passenger Load Factor Forecasting: Integrating Intra-Flight and Inter-Flight Booking Dynamics

ASM Nazrul Islam, Md. Hasanul Kabir, Md. Liakot Ali, Joydeb Kumar Sana

AI总结该研究针对航空业需求预测中的不足，提出了一种结合双时间流和混合注意力机制的LSTM模型，用于更准确地预测航班载客率。该模型同时处理航班内部的预订积累和航班之间的预订模式，克服了传统单时间维度建模的信息丢失问题。实验表明，该方法在孟加拉国航空公司实际数据上取得了较高的预测精度，并在多种航线类型中表现出良好的泛化能力，已被该航空公司正式应用于运营中。

详情

英文摘要

Accurate short-term demand forecasting is crucial to airline revenue management, yet most existing systems fail to meet this need because current models treat booking data as a single temporal dimension, either the accumulation of bookings for a specific flight or the historical booking profile of the same route. This unidimensional view discards information carried by the other temporal stream and forecasting absolute passenger counts introduces a further operational fragility when change in planned aircraft type alters total seat capacity. This study addresses both limitations. A dual-stream Long Short-Term Memory (LSTM) integrated with attention framework is proposed that simultaneously processes two complementary input sequences: a horizontal sequence capturing intra-flight booking accumulation over the days preceding departure, and a vertical sequence capturing inter-flight booking patterns at fixed days-before-departure offsets across historical flights. Multiple dual-stream architectural variants, combining self-attention, cross-attention, and hybrid attention with concatenation, residual, and gated fusion strategies, are developed and evaluated. Experiments on real-world reservation data from the national airline of Bangladesh, Biman Bangladesh Airlines (BBA), demonstrate that the proposed hybrid model achieves a Mean Absolute Error of 2.8167 and a coefficient of determination ($R^{2}$) of 0.9495, outperforming single-stream baselines, tree-based models, and three prior dual-LSTM architectures applied to the same data. Validation across four flight category pairs; domestic versus international, direct versus transit, high versus low frequency, and short versus mid versus long haul confirms that the model generalizes across operationally diverse route types. Biman Bangladesh Airlines (BBA) has officially integrated this methodology into its operations.

URL PDF HTML ☆

赞 0 踩 0

2605.11564 2026-05-13 cs.RO

RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning

Pablo Ortega-Kral, Eliot Xing, Arthur Bucker, Vernon Luk, Junseo Kim, Owen Kwon, Angchen Xie, Nikhil Sobanbabu, Yifu Yuan, Megan Lee, Deepam Ameria, Bhaswanth Ayapilla, Jaycie Bussell, Guanya Shi, Jonathan Francis, Jean Oh

AI总结本文提出 RIO，一个开源的 Python 框架，旨在解决跨形态机器人学习中的基础设施碎片化问题。RIO 提供了灵活、轻量的组件，支持机器人控制、远程操作、数据格式化、传感器配置和策略部署，适用于多种硬件平台和形态。研究通过在三种机器人形态和四种硬件平台上验证 RIO，展示了其在通用视觉-语言-动作模型训练与部署中的有效性，为实际机器人硬件上的学习加速提供了基础支持。

Comments 14 pages, 12 figures, 5 tables. Accepted to Robotics: Science and Systems (RSS) 2026

2605.11563 2026-05-13 cs.CV cs.AI

TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles

Sara Shoouri, Morteza Tavakoli Taba, Hun-Seok Kim

AI总结本文提出了一种名为TCP-SSM的高效视觉状态空间模型，旨在解决现有SSM在长程视觉任务中难以控制状态依赖记忆行为的问题。该方法通过引入基于令牌的稳定极点，显式建模递归动态，提升了模型的可解释性和可控性。TCP-SSM采用实极点和复共轭极点分别建模单调衰减和阻尼振荡响应，并通过分组极点共享和轻量输入路径设计，实现了计算效率的显著提升，在多个视觉任务中相比基线模型减少了高达44%的计算复杂度。

2605.11559 2026-05-13 cs.CV cs.AI

When Looking Is Not Enough: Visual Attention Structure Reveals Hallucination in MLLMs

Fanpu Cao, Xin Zou, Xuming Hu, Hui Xiong

AI总结多模态大语言模型（MLLMs）在视觉推理和基于视觉的问题回答中发挥着重要作用，但其仍易产生视觉幻觉，即生成的回答与图像内容矛盾或提及不存在的物体。本文发现，通过分析视觉注意力的高频结构（即层间拉普拉斯能量），可以揭示模型在生成幻觉时的注意力变化特征，并据此提出一种无需训练的解码策略LaSCD，通过选择具有高拉普拉斯能量的层并重新映射下一个词的得分，有效减少幻觉现象，同时保持模型的一般能力。

2605.11556 2026-05-13 cs.AI cs.LG

Hindsight Hint Distillation: Scaffolded Reasoning for SWE Agents from CoT-free Answers

Shengjie Wang, Guanghe Li, Zonghan Yang, Yang Gao

AI总结该研究提出了一种名为Hindsight Hint Distillation（HHD）的新方法，旨在从无思维链（CoT）注释的问题-答案对中学习推理能力，以解决复杂的长期任务。HHD通过模型自身失败的自我推演生成“事后提示”，用于指导成功的策略生成，并通过自我蒸馏提升模型的推理能力。实验表明，HHD在多个基准测试中显著优于现有方法，尤其在未见过的任务上表现出良好的泛化能力。

Comments 28 pages, 7 figures

2605.11554 2026-05-13 cs.LG

A Controlled Counterexample to Strong Proxy-Based Explanations of OOD Performance: in a Fixed Pretraining-and-Probing Setup

Hongmin Li

AI总结该研究探讨了在固定预训练与探针任务设置下，基于结构代理的解释是否能够准确反映模型在分布外（OOD）任务上的性能差异。研究通过构造一个受控实验，展示了结构代理的排名与OOD探针准确率排名可能不一致，表明结构代理未必能追踪影响OOD性能的关键任务结构。这一反例揭示了强代理解释的局限性，指出在特定条件下，总学习结构的代理可能无法准确反映任务相关结构。

Comments 19 pages, 3 figures

2605.11551 2026-05-13 cs.LG cs.CV cs.IT math.IT

VNDUQE: Information-Theoretic Novelty Detection using Deep Variational Information Bottleneck

Aryan Gondkar, Hayder Radha, Yiming Deng

AI总结本文提出了一种基于深度变分信息瓶颈（VIB）的新型检测与不确定性量化方法VNDUQE，用于检测神经网络中的分布外（OOD）样本。该方法通过信息论指标如KL散度和预测熵来评估样本的异常程度，并在MNIST数据集上验证了其有效性。实验表明，结合KL散度和预测熵的并行检测策略在远分布外和近分布外样本检测上均优于传统基线方法，显著提升了检测性能和不确定性估计的可靠性。

Comments 6 pages, 3 figures, Fall 2025 version

2605.11550 2026-05-13 cs.CV

The DAWN of World-Action Interactive Models

Hongbo Lu, Liang Yao, Chenghao He, Haoyu Wang, Xiang Gu, Xianfei Li, Wenlong Liao, Tao He, Pai Peng

AI总结该论文提出了一种名为DAWN的世界-动作交互模型，用于解决自动驾驶场景中世界演化与动作生成之间的相互依赖问题。DAWN通过在语义潜在空间中结合世界预测器和世界条件动作去噪器，实现了世界预测与动作生成的递归优化，从而在复杂交互场景中支持长期轨迹生成。实验表明，DAWN在多个自动驾驶基准测试中表现出优异的规划性能和安全性，展示了交互式世界-动作生成在构建真正可操作世界模型中的潜力。

2605.11547 2026-05-13 cs.LG cs.AI

Sharpen Your Flow: Sharpness-Aware Sampling for Flow Matching

Aditi Gupta, Soon Hoe Lim, Annan Yu, N. Benjamin Erichson

AI总结本文提出了一种名为 SharpEuler 的训练无关采样方法，用于改进流匹配模型的生成效率与质量。该方法通过离线分析预训练模型，估计速度场变化最剧烈的区域，并据此生成适用于任意推理预算的时步网格，从而在保持相同模型评估次数的前提下提升采样效果。实验表明，SharpEuler 在固定计算预算下能有效减少模式泄露并提升模式覆盖度，为高效生成提供了新思路。

2605.11541 2026-05-13 cs.CV

GeoR-Bench: Evaluating Geoscience Visual Reasoning

Yushuo Zheng, Zicheng Zhang, Huiyu Duan, Chunyi Li, Zijian Chen, Ziheng Jia, Yue Shi, Ke Gu, Xiongkuo Min, Guangtao Zhai

AI总结 GeoR-Bench 是一个用于评估地球科学视觉推理能力的基准测试，旨在解决当前人工智能系统在理解和预测地球系统变化方面的能力不足问题。该基准包含440个经过精心挑选的样本，涵盖6类地球科学任务和24种任务类型，通过视觉编辑任务来评估模型的推理能力、一致性和输出质量。实验结果表明，现有模型在地球科学推理上仍存在显著瓶颈，最佳模型的总体准确率仅为42.7%，而开源模型表现更差，反映出当前模型在科学准确性上仍有较大提升空间。

2605.11538 2026-05-13 cs.CL cs.AI cs.LG

Taming Extreme Tokens: Covariance-Aware GRPO with Gaussian-Kernel Advantage Reweighting

Cheng Wang, Qin Liu, Wenxuan Zhou, Muhao Chen

AI总结本文针对大型语言模型在训练过程中探索与利用之间的平衡问题，提出了一种基于协方差感知的改进型GRPO方法。该方法通过高斯核函数动态降低极端token更新的影响，从而在不损失有用学习信号的前提下减少训练不稳定。实验表明，该方法在多个推理基准上优于原始GRPO，有效提升了模型的下游性能并稳定了训练过程中的熵值。

Comments ACL 2026