Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning

本文通过理论分析和Re-distillation技术，揭示了小规模SFT在R1风格RL中的效率瓶颈，并以极少样本（<1K）在K&K和MATH数据集上接近RL性能，显著提升了数据效率。

Reinforcement Learning, Supervised Learning, Large Language Model, Reasoning, Fine-tuning, Data Augmentation

Yutong Chen, Jiandong Gao, Ji Wu

Tsinghua University

Generated by grok-3

Background Problem

近年来，R1风格的强化学习（RL）显著提升了大型语言模型（LLM）在推理任务中的能力，但其基于结果的奖励机制（不依赖逐步验证）背后的作用机理尚不明确。论文从探究小规模监督微调（SFT，样本量≤2K）对RL的影响入手，发现SFT对后续RL性能有显著影响但效率较低，存在数据质量和样本效率的瓶颈。作者试图解决的关键问题是：为何SFT效率受限，以及如何通过理论分析和方法改进提升小规模SFT的数据效率，以减少对RL的依赖并降低计算成本。

Method

论文提出了以下核心方法和技术：

理论分析框架： 引入了’sample effect’的概念，通过线性化假设分析RL和SFT的训练动态，将测试准确率的增长率分解为每个样本的贡献。作者推导了SFT和RL的增长率公式（如 $\hat{\mu}_{\text{RL}}(t, \Psi(\theta)) = \mathbb{E}_{s \sim D_t, a \sim \pi_\theta} [V(a, s, \theta) r(a, s)]$ ），并证明了样本效应高的数据对SFT效率至关重要，同时RL训练策略能提升输出样本的效应。
Re-distillation技术： 基于理论分析，提出从RL训练后的策略中再提炼数据，用于小规模SFT。具体步骤是：从RL收敛后的策略（如long-CoT模型）生成高质量推理数据，过滤正确且符合长度限制的样本，再用这些数据对基础模型（如Qwen2.5-1.5B Base）进行SFT，以期用更少的样本和计算资源接近RL性能。
关键假设与局限： 理论分析依赖于线性化近似，可能无法完全捕捉非线性训练动态；Re-distillation作为后验方法，需依赖已有的RL训练结果，限制了其独立性。我对’sample effect’是否能准确预测不同数据集和模型规模下的表现持保留态度，尤其是在长CoT和短CoT数据效应的预测失败案例中，作者归因于响应长度限制，但未深入探讨其他潜在因素。

Experiment

实验在Knight & Knave（K&K，逻辑推理数据集）和MATH（数学推理数据集）上进行，具体设置如下：

数据准备： K&K数据集生成了1K合成问题和解决方案，分为短CoT和长CoT（通过DeepSeek-R1生成长推理链），RL训练集包含10K样本，测试集500样本；MATH数据集从12K样本中划分RL训练（11K）、SFT训练（900）和测试（500）集，同样生成短CoT和长CoT数据。
实验流程： 对Qwen2.5-1.5B Base模型进行小规模SFT（2个epoch），随后进行R1风格RL（采用GRPO算法，二元奖励函数），对比不同初始策略（base-no-sft、instruct-no-sft、short-CoT、long-CoT）的收敛性；进一步测试Re-distillation方法，从RL训练后的long-CoT模型提炼数据（如K&K上689样本，MATH上496样本）进行SFT。
结果与分析： 小规模SFT对RL阶段有显著影响，但初始准确率不一定预测最终RL性能；Re-distillation表现出惊人的效率，K&K上re-distill-rl-kk仅用SFT就达到82.0%准确率（接近long-CoT RL的82.0%，优于DeepSeek-V3-0324的80.8%），MATH上re-distill-sft-math以496样本达到54.4%准确率（接近instruct模型的55.0%）；RL后Re-distillation模型仍有小幅提升（如K&K上+2.4%至84.4%）。
评价与质疑： 实验设置较为全面，涵盖了特定（K&K）和通用（MATH）推理任务，但样本量较小（尤其是Re-distillation数据集）可能限制结果的统计显著性；不同数据集上long-CoT表现不一致（K&K上优于MATH），作者未充分解释原因，可能与任务特性或数据分布有关；此外，实验主要基于小型模型（1.5B参数），未验证方法在更大规模模型上的有效性，我怀疑Re-distillation的效率可能随模型规模变化而减弱。

Further Thoughts

Re-distillation方法的成功提示我们，RL训练后的策略可能蕴含了更高效的样本分布模式，这与近年来关于数据质量对模型训练影响的研究相呼应，例如在数据选择和合成数据生成领域的工作。未来可以探索是否通过无监督或自监督方法，在SFT阶段就生成高样本效应数据，而无需依赖RL后验提炼。此外，论文中提到的RL对初始token分布调整的困难，启发了我对自回归模型中位置依赖性信用分配问题的思考，或许可以结合注意力机制或分层奖励设计来缓解这一问题。另一个值得关注的方向是Re-distillation在不同模型规模和任务类型上的普适性，例如在多模态任务或更大参数模型（如32B或以上）上的表现，可能需要调整样本量或提炼策略以适应不同的训练动态。最后，我认为’sample effect’的概念虽然有趣，但其线性化假设可能过于简化，未来可以引入更复杂的非线性分析工具（如神经切核理论的扩展）来更准确地建模SFT和RL的交互效应。