2601.04805
2026-06-09
cs.AI
版本更新
Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
基于思考的非思考:通过强化学习解决混合推理模型训练中的奖励黑客问题
Siyuan Gan, Jiaheng Liu, Boyan Wang, Tianpei Yang, Runqing Miao, Yuyao Zhang, Fanyu Meng, Junlan Feng, Linjian Meng, Jing Huo, Yang Gao
发表机构
*
State Key Laboratory of Novel Software Technology, Nanjing University, Nanjing, China(南京大学新型软件技术国家重点实验室)
;
Shanghai Artificial Intelligence Laboratory, Shanghai, China(上海人工智能实验室)
;
Jiutian Research, Beijing, China(九天研究院)
AI总结
针对混合推理模型训练中的奖励黑客问题,提出Thinking-Based Non-Thinking方法,利用思考型回答的解决方案信息为非思考型回答设置差异化最大令牌数,在数学基准上减少约50%令牌使用并提升准确率。