Skip to content
Go back 2505.24850 arXiv logo

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

Published:  at  11:28 AM
85.25 🤔

本文提出强化蒸馏(REDI)框架,通过两阶段训练利用正向和负向推理轨迹,显著提升小型语言模型的数学推理性能,Qwen-REDI-1.5B在公开数据上达到1.5B模型的最新水平。

Reinforcement Learning, Large Language Model, Reasoning, Supervised Learning, Efficiency

Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

INFLY TECH (Shanghai) Co., Ltd., National University of Singapore, AI Institute of Fudan University

Generated by grok-3

Background Problem

近年来,大型推理模型(如DeepSeek-R1、OpenAI的o1)在复杂推理任务中展现了卓越能力,但小型模型由于资源限制难以通过大规模在线强化学习(RL)获得类似能力。模型蒸馏作为一种替代方法,通过从大型‘教师’模型生成的推理轨迹(Chain-of-Thought, CoT)中学习,为小型‘学生’模型提供了一种经济高效的推理能力提升路径。然而,当前蒸馏方法多采用拒绝采样,仅利用正确的推理轨迹(正向数据),而忽略了生成过程中产生的错误推理轨迹(负向数据),导致数据利用不充分。本文聚焦于解决这一关键问题:在离线蒸馏设置中,如何有效利用正向和负向推理轨迹,以最大化小型语言模型的推理性能,尤其是在开放数据集上的应用。

Method

本文提出了强化蒸馏(REDI),一个两阶段的离线训练框架,旨在通过正向和负向推理轨迹提升模型推理能力。

Experiment

实验基于OpenR1-Math-Raw数据集(排除难度较低的cn_k12子集),构建了包含78k正向轨迹(DSFT)和53k正负轨迹对(DPref)的训练数据,使用Qwen2.5-Math-1.5B作为基础模型。

Further Thoughts

REDI框架通过非对称加权利用负向推理轨迹提供了一个有趣的视角,但其方法对超参数的敏感性可能限制其在不同模型或任务上的应用,未来可以探索自适应加权策略以提高鲁棒性。此外,负向数据的选择策略值得深入研究,例如是否可以通过聚类或多样性采样更全面地捕捉错误模式,从而进一步提升学习效果。另一个思考方向是REDI与在线RL的结合,论文提到REDI未损害模型未来在线RL的潜力,但未提供实际结合实验,未来可以在此方向上验证其是否能作为在线RL的预训练步骤,特别是在资源受限场景下。此外,REDI在数学推理外的应用(如自然语言推理或多模态任务)可能面临挑战,负向信号在不同领域的有效性需要进一步探索,可能与领域内错误模式的复杂性相关。最后,考虑到数据效率的优势,REDI或许可以与联邦学习结合,用于分布式环境中小型模型的推理能力提升,同时保护数据隐私。



Previous Post
One-shot Entropy Minimization
Next Post
Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods