Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
AI总结 该研究针对基于策略的自蒸馏方法在数学推理任务中效果不佳的问题,提出了一种新的反向自蒸馏方法(AntiSD)。通过点互信息分析,发现特权上下文导致教师模型对已知结构部分过于自信,而忽视了推理过程中的关键思考步骤。AntiSD通过最大化学生与教师之间的分布差异,反转了传统自蒸馏的梯度方向,从而更有效地提升推理能力。实验表明,该方法在多个大规模语言模型上显著减少了训练步骤并提升了推理准确率。