本文通过理论分析和Re-distillation技术,揭示了小规模SFT在R1风格RL中的效率瓶颈,并以极少样本(<1K)在K&K和MATH数据集上接近RL性能,显著提升了数据效率。
Reinforcement Learning, Supervised Learning, Large Language Model, Reasoning, Fine-tuning, Data Augmentation
Yutong Chen, Jiandong Gao, Ji Wu
Tsinghua University
Generated by grok-3
Background Problem
近年来,R1风格的强化学习(RL)显著提升了大型语言模型(LLM)在推理任务中的能力,但其基于结果的奖励机制(不依赖逐步验证)背后的作用机理尚不明确。论文从探究小规模监督微调(SFT,样本量≤2K)对RL的影响入手,发现SFT对后续RL性能有显著影响但效率较低,存在数据质量和样本效率的瓶颈。作者试图解决的关键问题是:为何SFT效率受限,以及如何通过理论分析和方法改进提升小规模SFT的数据效率,以减少对RL的依赖并降低计算成本。
Method
论文提出了以下核心方法和技术:
- 理论分析框架: 引入了’sample effect’的概念,通过线性化假设分析RL和SFT的训练动态,将测试准确率的增长率分解为每个样本的贡献。作者推导了SFT和RL的增长率公式(如 ),并证明了样本效应高的数据对SFT效率至关重要,同时RL训练策略能提升输出样本的效应。
- Re-distillation技术: 基于理论分析,提出从RL训练后的策略中再提炼数据,用于小规模SFT。具体步骤是:从RL收敛后的策略(如long-CoT模型)生成高质量推理数据,过滤正确且符合长度限制的样本,再用这些数据对基础模型(如Qwen2.5-1.5B Base)进行SFT,以期用更少的样本和计算资源接近RL性能。
- 关键假设与局限: 理论分析依赖于线性化近似,可能无法完全捕捉非线性训练动态;Re-distillation作为后验方法,需依赖已有的RL训练结果,限制了其独立性。我对’sample effect’是否能准确预测不同数据集和模型规模下的表现持保留态度,尤其是在长CoT和短CoT数据效应的预测失败案例中,作者归因于响应长度限制,但未深入探讨其他潜在因素。
Experiment
实验在Knight & Knave(K&K,逻辑推理数据集)和MATH(数学推理数据集)上进行,具体设置如下:
- 数据准备: K&K数据集生成了1K合成问题和解决方案,分为短CoT和长CoT(通过DeepSeek-R1生成长推理链),RL训练集包含10K样本,测试集500样本;MATH数据集从12K样本中划分RL训练(11K)、SFT训练(900)和测试(500)集,同样生成短CoT和长CoT数据。
- 实验流程: 对Qwen2.5-1.5B Base模型进行小规模SFT(2个epoch),随后进行R1风格RL(采用GRPO算法,二元奖励函数),对比不同初始策略(base-no-sft、instruct-no-sft、short-CoT、long-CoT)的收敛性;进一步测试Re-distillation方法,从RL训练后的long-CoT模型提炼数据(如K&K上689样本,MATH上496样本)进行SFT。
- 结果与分析: 小规模SFT对RL阶段有显著影响,但初始准确率不一定预测最终RL性能;Re-distillation表现出惊人的效率,K&K上re-distill-rl-kk仅用SFT就达到82.0%准确率(接近long-CoT RL的82.0%,优于DeepSeek-V3-0324的80.8%),MATH上re-distill-sft-math以496样本达到54.4%准确率(接近instruct模型的55.0%);RL后Re-distillation模型仍有小幅提升(如K&K上+2.4%至84.4%)。
- 评价与质疑: 实验设置较为全面,涵盖了特定(K&K)和通用(MATH)推理任务,但样本量较小(尤其是Re-distillation数据集)可能限制结果的统计显著性;不同数据集上long-CoT表现不一致(K&K上优于MATH),作者未充分解释原因,可能与任务特性或数据分布有关;此外,实验主要基于小型模型(1.5B参数),未验证方法在更大规模模型上的有效性,我怀疑Re-distillation的效率可能随模型规模变化而减弱。
Further Thoughts
Re-distillation方法的成功提示我们,RL训练后的策略可能蕴含了更高效的样本分布模式,这与近年来关于数据质量对模型训练影响的研究相呼应,例如在数据选择和合成数据生成领域的工作。未来可以探索是否通过无监督或自监督方法,在SFT阶段就生成高样本效应数据,而无需依赖RL后验提炼。此外,论文中提到的RL对初始token分布调整的困难,启发了我对自回归模型中位置依赖性信用分配问题的思考,或许可以结合注意力机制或分层奖励设计来缓解这一问题。另一个值得关注的方向是Re-distillation在不同模型规模和任务类型上的普适性,例如在多模态任务或更大参数模型(如32B或以上)上的表现,可能需要调整样本量或提炼策略以适应不同的训练动态。最后,我认为’sample effect’的概念虽然有趣,但其线性化假设可能过于简化,未来可以引入更复杂的非线性分析工具(如神经切核理论的扩展)来更准确地建模SFT和RL的交互效应。