ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

本文提出ProRL方法，通过长时间强化学习结合KL散度惩罚和参考策略重置，在多样化任务上训练Nemotron-Research-Reasoning-Qwen-1.5B模型，显著扩展了大型语言模型的推理边界，尤其在基础模型表现较差的领域和分布外任务上表现出色。

Reinforcement Learning, Large Language Model, Reasoning, Pre-training, Multimodal Data

Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

NVIDIA

Generated by grok-3

Background Problem

近年来，专注于推理的大型语言模型（如OpenAI-O1和DeepSeek-R1）通过扩展测试时计算（test-time compute）显著提升了复杂任务（如数学问题求解和代码生成）的性能。然而，学术界对强化学习（RL）是否真正扩展了模型的推理能力存在争议：RL是否只是优化了基础模型中已存在的解的采样效率，还是确实能探索新的推理边界？现有研究因训练时间短（通常仅数百步）和任务领域狭窄（如仅限于数学）而受到限制，可能低估了RL的潜力。本文通过提出ProRL（Prolonged Reinforcement Learning），旨在通过长时间RL训练和多样化任务，解决这些限制，并证明RL能够显著扩展推理边界。

Method

ProRL是一种新型强化学习训练方法，旨在通过长时间训练扩展语言模型的推理能力。其核心思想和实现步骤如下：

基础算法： 采用Group Relative Policy Optimization（GRPO），一种基于组分数的强化学习算法，相比传统的PPO（Proximal Policy Optimization）去除了价值模型，通过组分数估计优势函数，简化训练过程。
解决熵崩溃问题： 针对长时间RL训练中常见的熵崩溃（模型输出分布过早集中，限制探索），ProRL引入了KL散度惩罚项，防止当前策略偏离参考策略过远，同时通过高采样温度和动态采样（Dynamic Sampling）维持探索多样性。
参考策略重置： 定期将参考策略重置为当前策略的快照，并重新初始化优化器状态，避免KL项主导损失，确保训练稳定性和持续改进。
多样化任务训练： 在包含数学、代码、STEM推理、逻辑谜题和指令跟随等136K问题的多样化数据集上进行训练，促进跨领域泛化。 批判性思考： 虽然KL散度和参考策略重置在理论上能够稳定训练，但其效果可能高度依赖于超参数（如KL惩罚系数β）的选择，论文未充分讨论如何系统性地调整这些参数。此外，动态采样过滤过于简单或困难的提示可能导致训练数据分布偏倚，忽略了某些边缘案例的学习潜力。

Experiment

实验围绕Nemotron-Research-Reasoning-Qwen-1.5B模型展开，基于DeepSeek-R1-1.5B基础模型，通过ProRL训练超过2000步，耗费约16K GPU小时，使用4个8x NVIDIA H100节点。数据集包含136K问题，覆盖数学、代码、STEM、逻辑谜题和指令跟随五大领域，评估基准包括AIME、MATH、Codeforces、GPQA Diamond等，采用pass@1和pass@16等指标，并测试了分布外（OOD）任务和任务难度增加的场景。

结果： 模型在所有领域显著优于基础模型，数学任务pass@1提升15.7%，代码提升14.4%，逻辑谜题提升54.8%，甚至在某些任务上超越更大的DeepSeek-R1-7B模型。长时间训练显示持续性能提升，尤其在基础模型表现较差的任务上，推理边界扩展明显。分布外任务和更高难度任务上也展现了较强的泛化能力。
实验设计合理性： 多样化任务和长时间训练的设计有助于验证RL扩展推理边界的潜力，pass@k指标结合创造力指数（Creativity Index）提供了多维评估。然而，实验未充分探讨不同任务领域的训练数据比例对结果的影响，可能存在某些领域过拟合的风险。此外，计算成本极高，未提供资源效率分析，限制了方法的可复制性。
批判性思考： 虽然结果令人印象深刻，但部分任务（如数学）在高pass@128下推理边界缩小，表明RL可能仅优化了已有解的分布，而非真正扩展推理能力。创造力指数作为新推理模式的衡量标准可能存在主观性，未与更客观的指标（如解的结构分析）结合验证。

Further Thoughts

ProRL的成功表明，强化学习在扩展推理能力方面的潜力可能远未被充分利用，尤其是在长时间训练和多样化任务的加持下。然而，我认为其方法可能存在领域依赖性：数学和代码任务的结构化特性可能更适合RL优化，而在开放性更强的任务（如创意写作）上，RL是否仍能有效扩展推理边界值得进一步探索。此外，论文中提到的创造力指数作为一个创新性指标，虽然有趣，但其计算方法（与预训练语料的重叠度）可能无法完全捕捉推理的‘新颖性’，未来可以结合生成解的语义结构分析或与人类专家评估对比，以更全面地衡量推理能力的提升。另一个值得关注的点是计算成本与收益的平衡，ProRL的高资源需求可能限制其在中小型研究团队中的应用，是否可以通过更高效的RL算法（如结合联邦学习或参数高效微调）降低成本，是一个重要的研究方向。最后，ProRL的成功也让我联想到AlphaGo通过自我对弈发现新策略的案例，是否可以在语言模型中引入类似的自博弈机制，让模型在推理任务上自我挑战，进一步突破推理边界？