本文综述了DeepSeek-R1发布后100天内推理语言模型的复制研究,系统总结了监督微调和基于可验证奖励的强化学习方法在数据构建和算法设计上的进展,并探讨了推理能力提升的多方向应用。
Supervised Learning, Reinforcement Learning, Large Language Model, Reasoning, Data Augmentation
Chong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing
MiroMind, Fudan University, National University of Singapore, Singapore University of Technology and Design, Nanyang Technological University
Generated by grok-3
Background Problem
推理语言模型(RLMs)作为大型语言模型(LLMs)的新进展,通过显式推理过程(如思维链)提升了复杂任务(如数学问题求解、代码生成和逻辑推理)的可解释性和准确性。DeepSeek-R1模型的发布引发了研究社区的广泛关注,但其训练细节和数据资源未完全开源,这限制了学术界对其推理能力的深入理解和复制。因此,许多研究尝试通过监督微调(SFT)和基于可验证奖励的强化学习(RLVR)等方法,探索RLMs的最佳设计,解决如何在开源环境下重现DeepSeek-R1性能的问题,同时探讨推理能力提升的更多方向。
Method
本文主要综述了两种核心方法:
- 监督微调(SFT):通过从DeepSeek-R1等强模型中提取高质量推理轨迹(如思维链,CoT),对基础模型进行微调。数据构建包括从数学、编码等领域收集问题,并通过验证工具(如Math Verify)或LLM评判确保答案和推理过程的正确性。训练目标是最小化负对数似然损失,鼓励模型模仿监督示范。
- 基于可验证奖励的强化学习(RLVR):采用强化学习方法(如PPO、GRPO及其变体DAPO、VC-PPO等)优化模型的推理能力。核心是设计奖励系统(基于答案准确性和格式),并通过策略梯度方法更新模型参数。改进算法针对训练稳定性、熵崩溃和长序列推理等问题,提出了解耦剪切、动态采样和值校准等技术。此外,还包括数据采样策略和奖励归一化等辅助手段。
Experiment
实验主要围绕SFT和RLVR的复制研究展开:
- 数据集:SFT数据集规模从817(LIMO)到140万(AM)不等,覆盖数学、编码等多个领域;RLVR数据集(如DeepScaleR、Skywork-OR1)则注重可验证性,规模从1千到77.3万不等。
- 实验设置:SFT实验对比了不同初始检查点(如Qwen2.5-Base vs. Instruct)和数据集选择对性能的影响;RLVR实验测试了多种算法变体(如GRPO、DAPO)在不同模型规模和任务上的效果。
- 结果:SFT结果显示,精心 curation 的小数据集(如LIMO)也能取得与大规模数据集相近的性能,AM在AIME24和MATH500基准上表现最佳(分别为76.5%和97.0%)。RLVR实验表明,改进算法(如DAPO)在长链推理和训练稳定性上优于原始PPO,但计算成本较高。部分研究未充分考虑数据污染问题,可能导致性能高估。
- 评估:实验设置较为全面,覆盖了多种基准(如AIME24/25、MATH500),但缺乏对数据去污染和模型泛化能力的系统性测试,部分结果可能因数据集重叠而存在偏差。
Further Thoughts
本文虽然提供了对推理语言模型复制研究的全面综述,但其对数据污染问题的讨论较为有限,仅有少数研究(如Light-R1和LIMO)明确提到去污染措施,而这可能是导致性能高估的关键因素。未来研究应建立标准化的数据去污染流程,并测试模型在未见过数据集上的泛化能力。此外,文中提到的多模态和多语言扩展方向令人振奋,但缺乏具体实现细节和实验支持。我认为可以参考近期多模态模型(如Gemini 1.5)的研究,探索如何将推理能力与视觉或语音数据结合,特别是在教育和医疗等领域的应用潜力。同时,强化学习算法的改进(如DAPO、VC-PPO)虽然在长链推理中表现出色,但其计算成本和对超参数的敏感性可能限制其在资源受限环境下的应用,值得进一步优化或探索轻量化替代方案,如结合在线DPO等方法以降低训练开销。