Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning
超越奖励工程:长上下文强化学习的数据配方
发表机构 * OpenBMB ; Tsinghua University(清华大学)
专题命中 后训练 :通过数据配方和GRPO强化学习提升LLM长上下文推理能力
AI总结 提出一种简单有效的数据配方,结合最小化基于结果的GRPO设置,显著提升大语言模型的长上下文推理能力,在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。
Comments 15 pages, 6 figures, 12 tables