Skip to content
Go back 2505.17988 arXiv logo

Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning

Published:  at  11:25 AM
92.52 🤔

本文通过理论分析和Re-distillation技术,揭示了小规模SFT在R1风格RL中的效率瓶颈,并以极少样本(<1K)在K&K和MATH数据集上接近RL性能,显著提升了数据效率。

Reinforcement Learning, Supervised Learning, Large Language Model, Reasoning, Fine-tuning, Data Augmentation

Yutong Chen, Jiandong Gao, Ji Wu

Tsinghua University

Generated by grok-3

Background Problem

近年来,R1风格的强化学习(RL)显著提升了大型语言模型(LLM)在推理任务中的能力,但其基于结果的奖励机制(不依赖逐步验证)背后的作用机理尚不明确。论文从探究小规模监督微调(SFT,样本量≤2K)对RL的影响入手,发现SFT对后续RL性能有显著影响但效率较低,存在数据质量和样本效率的瓶颈。作者试图解决的关键问题是:为何SFT效率受限,以及如何通过理论分析和方法改进提升小规模SFT的数据效率,以减少对RL的依赖并降低计算成本。

Method

论文提出了以下核心方法和技术:

Experiment

实验在Knight & Knave(K&K,逻辑推理数据集)和MATH(数学推理数据集)上进行,具体设置如下:

Further Thoughts

Re-distillation方法的成功提示我们,RL训练后的策略可能蕴含了更高效的样本分布模式,这与近年来关于数据质量对模型训练影响的研究相呼应,例如在数据选择和合成数据生成领域的工作。未来可以探索是否通过无监督或自监督方法,在SFT阶段就生成高样本效应数据,而无需依赖RL后验提炼。此外,论文中提到的RL对初始token分布调整的困难,启发了我对自回归模型中位置依赖性信用分配问题的思考,或许可以结合注意力机制或分层奖励设计来缓解这一问题。另一个值得关注的方向是Re-distillation在不同模型规模和任务类型上的普适性,例如在多模态任务或更大参数模型(如32B或以上)上的表现,可能需要调整样本量或提炼策略以适应不同的训练动态。最后,我认为’sample effect’的概念虽然有趣,但其线性化假设可能过于简化,未来可以引入更复杂的非线性分析工具(如神经切核理论的扩展)来更准确地建模SFT和RL的交互效应。



Previous Post
General-Reasoner: Advancing LLM Reasoning Across All Domains
Next Post
AI in Money Matters