Skip to content
Go back 2505.24864 arXiv logo

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Published:  at  11:45 AM
91.52 🤔

本文提出ProRL方法,通过长时间强化学习结合KL散度惩罚和参考策略重置,在多样化任务上训练Nemotron-Research-Reasoning-Qwen-1.5B模型,显著扩展了大型语言模型的推理边界,尤其在基础模型表现较差的领域和分布外任务上表现出色。

Reinforcement Learning, Large Language Model, Reasoning, Pre-training, Multimodal Data

Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

NVIDIA

Generated by grok-3

Background Problem

近年来,专注于推理的大型语言模型(如OpenAI-O1和DeepSeek-R1)通过扩展测试时计算(test-time compute)显著提升了复杂任务(如数学问题求解和代码生成)的性能。然而,学术界对强化学习(RL)是否真正扩展了模型的推理能力存在争议:RL是否只是优化了基础模型中已存在的解的采样效率,还是确实能探索新的推理边界?现有研究因训练时间短(通常仅数百步)和任务领域狭窄(如仅限于数学)而受到限制,可能低估了RL的潜力。本文通过提出ProRL(Prolonged Reinforcement Learning),旨在通过长时间RL训练和多样化任务,解决这些限制,并证明RL能够显著扩展推理边界。

Method

ProRL是一种新型强化学习训练方法,旨在通过长时间训练扩展语言模型的推理能力。其核心思想和实现步骤如下:

Experiment

实验围绕Nemotron-Research-Reasoning-Qwen-1.5B模型展开,基于DeepSeek-R1-1.5B基础模型,通过ProRL训练超过2000步,耗费约16K GPU小时,使用4个8x NVIDIA H100节点。数据集包含136K问题,覆盖数学、代码、STEM、逻辑谜题和指令跟随五大领域,评估基准包括AIME、MATH、Codeforces、GPQA Diamond等,采用pass@1和pass@16等指标,并测试了分布外(OOD)任务和任务难度增加的场景。

Further Thoughts

ProRL的成功表明,强化学习在扩展推理能力方面的潜力可能远未被充分利用,尤其是在长时间训练和多样化任务的加持下。然而,我认为其方法可能存在领域依赖性:数学和代码任务的结构化特性可能更适合RL优化,而在开放性更强的任务(如创意写作)上,RL是否仍能有效扩展推理边界值得进一步探索。此外,论文中提到的创造力指数作为一个创新性指标,虽然有趣,但其计算方法(与预训练语料的重叠度)可能无法完全捕捉推理的‘新颖性’,未来可以结合生成解的语义结构分析或与人类专家评估对比,以更全面地衡量推理能力的提升。另一个值得关注的点是计算成本与收益的平衡,ProRL的高资源需求可能限制其在中小型研究团队中的应用,是否可以通过更高效的RL算法(如结合联邦学习或参数高效微调)降低成本,是一个重要的研究方向。最后,ProRL的成功也让我联想到AlphaGo通过自我对弈发现新策略的案例,是否可以在语言模型中引入类似的自博弈机制,让模型在推理任务上自我挑战,进一步突破推理边界?



Previous Post
Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration
Next Post
LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning