本文通过 pass@k 指标系统评估 RLVR 在大型语言模型推理能力边界上的效果,发现 RLVR 仅提高采样效率而未引入新推理模式,其能力受限于基础模型,强调需改进 RL 范式以激发真正的新推理能力。
Reinforcement Learning, Large Language Model, Reasoning, Sampling Efficiency, Representation Learning
Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
Tsinghua University, Shanghai Jiao Tong University
Generated by grok-3
Background Problem
大型语言模型(LLMs)在数学、编程等复杂逻辑任务上的推理能力近年来显著提升,而可验证奖励强化学习(RLVR)被认为是这一进步的关键驱动力。RLVR 通过基于自动计算奖励(如答案正确性)的强化学习优化模型,被广泛认为能让 LLMs 自主发现新的推理策略,超越基础模型的能力。然而,当前 RLVR 的真正效果尚未被充分检验,核心问题在于:RLVR 是否真正赋予了 LLMs 新的推理能力,还是仅优化了已有能力?本研究通过系统评估 RLVR 训练模型与基础模型的推理边界,揭示了 RLVR 的局限性,挑战了其能带来根本性推理突破的普遍认知。
Method
本研究采用了一种系统性评估方法,核心在于使用 pass@k 指标来衡量模型的推理能力边界,具体步骤如下:
- 评估指标:pass@k 表示在 k 次采样中至少有一次正确输出的概率,用于评估模型在多次尝试下解决问题的潜力,相比传统的贪婪解码或核采样更能反映模型的推理边界。
- 实验对比:对多种 LLM 家族(如 Qwen2.5、LLaMA-3.1)、模型规模及 RLVR 算法(如 PPO、GRPO、Reinforce++)进行对比,分析基础模型与 RLVR 训练模型在数学、编程和视觉推理任务上的表现。
- 深入分析:通过准确率分布分析、困惑度(Perplexity)分析和可解决问题的覆盖范围分析,探究 RLVR 模型生成的推理路径是否已存在于基础模型的采样分布中。
- 对比蒸馏方法:将 RLVR 与从强教师模型中蒸馏推理模式的方法进行对比,评估两种方法在扩展推理能力上的差异。
关键发现:RLVR 仅提高采样效率,未引入新推理模式;其推理能力受限于基础模型。而蒸馏方法能通过学习教师模型的新推理模式突破这一边界。
批判性思考:虽然方法设计较为全面,但奖励机制过于简单(仅基于最终答案正确性),可能限制了 RLVR 激发新推理能力。此外,pass@k 指标在数学任务中可能受到‘猜测’正确答案的干扰,尽管作者通过手动检查 CoT 部分缓解了这一问题,但样本量较小,可能影响结论的普适性。
Experiment
实验覆盖了数学、编程和视觉推理三大任务领域,具体设置如下:
- 数据集与基准:数学任务使用 GSM8K、MATH500 等基准;编程任务使用 LiveCodeBench、HumanEval+;视觉推理任务使用 MathVista、MathVision。
- 模型与算法:测试了多种基础模型(如 Qwen2.5 系列、LLaMA-3.1)及其 RLVR 训练版本,采用多种 RL 算法(如 PPO、GRPO)。
- 实验设计:采样参数统一(温度 0.6,top-p 0.95),避免使用 few-shot 提示以确保公平对比。pass@k 指标用于评估推理边界,k 值从 1 到 256 或更高。
- 结果:在小 k 值(如 k=1)时,RLVR 模型表现优于基础模型,表明采样效率提高;但在大 k 值(如 k=256)时,基础模型始终超越 RLVR 模型,显示其推理覆盖范围更广。困惑度分析进一步表明 RLVR 模型的推理路径已存在于基础模型分布中。不同 RL 算法的采样效率差距(∆SE)相似且较大,均远未达到最优。
- 合理性与局限:实验设置较为全面,覆盖多种任务和模型,确保了结论的稳健性。然而,实验未探讨奖励设计或训练数据规模对结果的影响,可能错过了一些潜在优化方向。此外,数学任务中‘猜测’正确答案的问题虽有手动检查,但样本量有限,可能影响结论的可靠性。
- 与预期匹配度:结果与作者预期一致,即 RLVR 未带来新推理能力,但与普遍认知(RLVR 能激发新推理)相悖,揭示了当前方法的局限性。
Further Thoughts
本文揭示了 RLVR 在激发新推理能力上的局限性,提示我们重新思考强化学习在 LLM 领域的应用方式。当前 RLVR 的奖励机制过于简单,仅关注最终答案正确性,忽略了推理过程的多样性和创新性。未来是否可以通过设计更复杂的奖励函数(如奖励中间推理步骤的逻辑一致性或多样性)来鼓励模型探索新推理路径?此外,论文中提到的多轮代理-环境交互是一个值得探索的方向,这与传统 RL 在游戏领域(如 Atari、Go)的成功经验相呼应,可能通过模拟更真实的推理环境(如多步对话或动态问题解决)激发新能力。
另一个有趣的联系是与联邦学习(Federated Learning)或持续学习(Continual Learning)的结合。RLVR 的局限可能部分源于训练数据的静态性,若能通过持续学习从多样化环境中动态更新模型,或通过联邦学习整合多源推理数据,是否能突破基础模型的边界?此外,蒸馏方法在扩展推理能力上的成功提示我们,是否可以将 RLVR 与蒸馏结合,利用强教师模型引导 RL 探索新推理空间?这可能是一个值得深入研究的方向。