SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning
SmartThinker: 渐进式思维链长度校准以实现高效的大语言模型推理
发表机构 * Tsinghua University(清华大学)
AI总结 针对大型推理模型输出冗余问题,提出基于GRPO的渐进式CoT长度校准方法SmartThinker,通过动态估计最优长度和调节长度奖励系数,在压缩响应长度同时提升准确率。
Comments Accepted by ICML 2026, 18 pages, 13 figures