本文提出ProRL方法,通过长时间强化学习结合KL散度惩罚和参考策略重置,在多样化任务上训练Nemotron-Research-Reasoning-Qwen-1.5B模型,显著扩展了大型语言模型的推理边界,尤其在基础模型表现较差的领域和分布外任务上表现出色。
Reinforcement Learning, Large Language Model, Reasoning, Pre-training, Multimodal Data
Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
NVIDIA
Generated by grok-3
Background Problem
近年来,专注于推理的大型语言模型(如OpenAI-O1和DeepSeek-R1)通过扩展测试时计算(test-time compute)显著提升了复杂任务(如数学问题求解和代码生成)的性能。然而,学术界对强化学习(RL)是否真正扩展了模型的推理能力存在争议:RL是否只是优化了基础模型中已存在的解的采样效率,还是确实能探索新的推理边界?现有研究因训练时间短(通常仅数百步)和任务领域狭窄(如仅限于数学)而受到限制,可能低估了RL的潜力。本文通过提出ProRL(Prolonged Reinforcement Learning),旨在通过长时间RL训练和多样化任务,解决这些限制,并证明RL能够显著扩展推理边界。
Method
ProRL是一种新型强化学习训练方法,旨在通过长时间训练扩展语言模型的推理能力。其核心思想和实现步骤如下:
- 基础算法: 采用Group Relative Policy Optimization(GRPO),一种基于组分数的强化学习算法,相比传统的PPO(Proximal Policy Optimization)去除了价值模型,通过组分数估计优势函数,简化训练过程。
- 解决熵崩溃问题: 针对长时间RL训练中常见的熵崩溃(模型输出分布过早集中,限制探索),ProRL引入了KL散度惩罚项,防止当前策略偏离参考策略过远,同时通过高采样温度和动态采样(Dynamic Sampling)维持探索多样性。
- 参考策略重置: 定期将参考策略重置为当前策略的快照,并重新初始化优化器状态,避免KL项主导损失,确保训练稳定性和持续改进。
- 多样化任务训练: 在包含数学、代码、STEM推理、逻辑谜题和指令跟随等136K问题的多样化数据集上进行训练,促进跨领域泛化。 批判性思考: 虽然KL散度和参考策略重置在理论上能够稳定训练,但其效果可能高度依赖于超参数(如KL惩罚系数β)的选择,论文未充分讨论如何系统性地调整这些参数。此外,动态采样过滤过于简单或困难的提示可能导致训练数据分布偏倚,忽略了某些边缘案例的学习潜力。
Experiment
实验围绕Nemotron-Research-Reasoning-Qwen-1.5B模型展开,基于DeepSeek-R1-1.5B基础模型,通过ProRL训练超过2000步,耗费约16K GPU小时,使用4个8x NVIDIA H100节点。数据集包含136K问题,覆盖数学、代码、STEM、逻辑谜题和指令跟随五大领域,评估基准包括AIME、MATH、Codeforces、GPQA Diamond等,采用pass@1和pass@16等指标,并测试了分布外(OOD)任务和任务难度增加的场景。
- 结果: 模型在所有领域显著优于基础模型,数学任务pass@1提升15.7%,代码提升14.4%,逻辑谜题提升54.8%,甚至在某些任务上超越更大的DeepSeek-R1-7B模型。长时间训练显示持续性能提升,尤其在基础模型表现较差的任务上,推理边界扩展明显。分布外任务和更高难度任务上也展现了较强的泛化能力。
- 实验设计合理性: 多样化任务和长时间训练的设计有助于验证RL扩展推理边界的潜力,pass@k指标结合创造力指数(Creativity Index)提供了多维评估。然而,实验未充分探讨不同任务领域的训练数据比例对结果的影响,可能存在某些领域过拟合的风险。此外,计算成本极高,未提供资源效率分析,限制了方法的可复制性。
- 批判性思考: 虽然结果令人印象深刻,但部分任务(如数学)在高pass@128下推理边界缩小,表明RL可能仅优化了已有解的分布,而非真正扩展推理能力。创造力指数作为新推理模式的衡量标准可能存在主观性,未与更客观的指标(如解的结构分析)结合验证。
Further Thoughts
ProRL的成功表明,强化学习在扩展推理能力方面的潜力可能远未被充分利用,尤其是在长时间训练和多样化任务的加持下。然而,我认为其方法可能存在领域依赖性:数学和代码任务的结构化特性可能更适合RL优化,而在开放性更强的任务(如创意写作)上,RL是否仍能有效扩展推理边界值得进一步探索。此外,论文中提到的创造力指数作为一个创新性指标,虽然有趣,但其计算方法(与预训练语料的重叠度)可能无法完全捕捉推理的‘新颖性’,未来可以结合生成解的语义结构分析或与人类专家评估对比,以更全面地衡量推理能力的提升。另一个值得关注的点是计算成本与收益的平衡,ProRL的高资源需求可能限制其在中小型研究团队中的应用,是否可以通过更高效的RL算法(如结合联邦学习或参数高效微调)降低成本,是一个重要的研究方向。最后,ProRL的成功也让我联想到AlphaGo通过自我对弈发现新策略的案例,是否可以在语言模型中引入类似的自博弈机制,让模型在推理任务上自我挑战,进一步突破推理边界?