Reinforcement Learning for Reasoning in Large Language Models with One Training Example

本文发现，通过对大型语言模型应用带有可验证奖励的强化学习，仅使用一个训练示例即可显著提升其数学推理能力，效果可媲美使用数千示例进行训练，并揭示了饱和后泛化、跨领域泛化等现象，强调了策略梯度和探索的重要性。

Reinforcement Learning, Large Language Model, Reasoning, Data Efficiency, Policy Gradient, Cross-Domain Generalization

Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen

University of Washington, University of Southern California, Microsoft, University of California, Santa Cruz, Georgia Institute of Technology

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型（LLMs）在数学推理等复杂任务上取得了显著进展，其中强化学习与可验证奖励（RLVR）是一个关键方法。RLVR通常使用规则 기반 的奖励（如答案正确性）来训练模型。然而，当前的RLVR研究主要集中在算法改进上，而对数据效率的探索相对不足。现有的工作虽然尝试减少数据集大小，但并未探究其极限。因此，本文的研究起点是质疑RLVR训练所需的数据量，并提出关键问题：为了达到与使用完整数据集相当的性能，RLVR训练数据集可以减少到什么程度？数据质量和数量如何影响RLVR观察到的经验现象（如自反思和泛化能力）？解决这些问题对于提高RLVR的数据效率和理解其工作机制至关重要。

Method

本研究的核心思想是探索在RLVR训练中大幅减少训练数据量的可能性，特别是能否仅使用一个或少数几个示例。研究发现，通过对大型语言模型（LLM）应用带有可验证奖励的强化学习（RLVR），即使只使用一个训练示例，也能显著提升其数学推理能力。具体方法如下：

选择训练示例： 虽然提出了一种基于历史训练准确率方差的数据选择方法（Historical Variance Score），但研究发现许多不同的示例，无论其历史方差高低，都能在单示例RLVR中带来显著提升，表明该现象不强依赖于特定的数据选择方法。选定的单个或少数示例会被复制以达到训练所需的批量大小。
应用RLVR算法： 主要使用GRPO算法（也验证了PPO）。GRPO损失函数包含三个主要部分：策略梯度损失（Policy Gradient Loss）、KL散度损失（KL Divergence Loss）和熵损失（Entropy Loss）。
- 策略梯度损失： 鼓励模型生成奖励更高的响应序列。对于数学问题，奖励是二元的（0或1），基于最终答案的正确性。使用组归一化优势（group-normalized advantage）来加权采样输出，强化优于平均水平的解，惩罚劣于平均水平的解。
- KL散度损失： 作为正则化项，衡量当前模型与参考模型响应的差异，用于维持通用语言质量。
- 熵损失： 带有负系数，鼓励每个token的熵更高，以促进探索和生成更多样化的推理路径。
训练过程： 模型在选定的（复制的）示例上进行RLVR训练。通过优化上述损失函数，模型学习生成能获得正确答案的推理过程。
分析与验证： 观察训练过程中的性能变化、泛化能力（跨领域、饱和后）、自反思行为等。通过消融实验分析不同损失项的贡献，并验证方法在不同模型和算法上的有效性。

Experiment

研究主要在Qwen2.5-Math-1.5B模型上进行，并验证了Qwen2.5-Math-7B、Llama3.2-3B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B模型上的有效性。训练数据集主要使用DeepScaleR-Preview-Dataset的1209个示例子集（DSR-sub），以及MATH训练集（7500个示例）作为对比。对于单示例或少示例训练，将选定的示例复制到达到批处理大小（128）。评估在六个数学推理基准（MATH500、AIME 2024/2025、AMC 2023、Minerva Math、OlympiadBench）和两个非数学推理任务（ARC-Easy/Challenge）上进行。默认使用GRPO算法，奖励为二元（答案正确为1）。实验设置包括KL散度损失（β=0.001）、熵损失（α=-0.001）、权重衰减（0.01）、rollout温度（0.6）、批量大小（128）、每个prompt采样8个响应、学习率（1e-6）。训练步数根据模型不同而变化。实验结果显示，使用单个示例（如π1或π13）进行RLVR训练，在Qwen2.5-Math-1.5B上能将MATH500性能从36.0%提升到73.6%，六个数学基准的平均性能从17.6%提升到35.7%，这与使用1.2k DSR-sub数据集的效果相当，甚至使用两个示例（π1, π13）能略微超越。这种提升在其他模型（7B、Llama、蒸馏模型）和PPO算法上也得到验证。此外，单示例RLVR还能提升非数学推理任务的性能。研究还观察到“饱和后泛化”（post-saturation generalization）现象，即训练准确率饱和后测试性能仍持续提升；跨领域泛化，单个数学示例能提升其他数学领域甚至非数学领域的性能；以及自反思频率的增加。消融实验表明，性能提升主要归因于策略梯度损失，而非权重衰减（与grokking不同），熵损失能进一步增强效果。仅使用熵损失也能带来显著提升。

Further Thoughts

这篇论文的发现非常令人兴奋，它挑战了我们对RLVR数据需求的传统认知。单示例RLVR的有效性强烈支持了“基座模型已具备潜在推理能力，RLVR仅是激活或引导”的观点。这与近年来一些工作（如Dr. GRPO）通过取消模板或改变评估方式发现基座模型隐藏能力的思路不谋而合。未来的研究可以更深入地探索如何“激活”这些潜在能力，而不仅仅是“训练”新能力。 “饱和后泛化”现象尤其引人深思。模型在单个示例上达到100%训练准确率后，测试性能仍在提升，且即使训练示例过拟合（输出乱码），测试性能和输出仍正常。这暗示了RLVR训练可能不仅仅是简单的模式匹配或记忆，而是在更深层次上调整了模型的推理策略或内部表征。作者提出的“策略梯度损失作为隐式正则化”的猜想值得深入研究，或许可以借鉴Double Descent或SGD隐式正则化的理论框架来理解。这可能为理解LLM的泛化机制提供新的视角。此外，熵损失在单示例RLVR中的重要性以及仅使用熵损失也能带来提升的发现，强调了“探索”在RLVR中的关键作用。这不仅仅是增加输出多样性，可能是在引导模型在解空间中搜索更鲁棒、更具泛化性的推理路径。如何设计更有效的探索机制，或者如何利用少量高质量数据引导模型进行有益探索，是未来RLVR数据效率和性能提升的关键。论文还提到了蒸馏模型可能需要更多数据来稳定RL过程，这可能与蒸馏模型本身的特性有关，例如它们可能已经通过模仿长CoT数据学到了一些特定的推理模式，需要更多RL信号来调整或泛化这些模式。这提示我们在对不同来源或训练方式的模型应用RLVR时，需要考虑其先验特性。