Skip to content
Go back 2504.13837 arXiv logo

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Published:  at  11:11 AM
93.91 🤔

本文通过 pass@k 指标系统评估 RLVR 在大型语言模型推理能力边界上的效果,发现 RLVR 仅提高采样效率而未引入新推理模式,其能力受限于基础模型,强调需改进 RL 范式以激发真正的新推理能力。

Reinforcement Learning, Large Language Model, Reasoning, Sampling Efficiency, Representation Learning

Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

Tsinghua University, Shanghai Jiao Tong University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在数学、编程等复杂逻辑任务上的推理能力近年来显著提升,而可验证奖励强化学习(RLVR)被认为是这一进步的关键驱动力。RLVR 通过基于自动计算奖励(如答案正确性)的强化学习优化模型,被广泛认为能让 LLMs 自主发现新的推理策略,超越基础模型的能力。然而,当前 RLVR 的真正效果尚未被充分检验,核心问题在于:RLVR 是否真正赋予了 LLMs 新的推理能力,还是仅优化了已有能力?本研究通过系统评估 RLVR 训练模型与基础模型的推理边界,揭示了 RLVR 的局限性,挑战了其能带来根本性推理突破的普遍认知。

Method

本研究采用了一种系统性评估方法,核心在于使用 pass@k 指标来衡量模型的推理能力边界,具体步骤如下:

关键发现:RLVR 仅提高采样效率,未引入新推理模式;其推理能力受限于基础模型。而蒸馏方法能通过学习教师模型的新推理模式突破这一边界。

批判性思考:虽然方法设计较为全面,但奖励机制过于简单(仅基于最终答案正确性),可能限制了 RLVR 激发新推理能力。此外,pass@k 指标在数学任务中可能受到‘猜测’正确答案的干扰,尽管作者通过手动检查 CoT 部分缓解了这一问题,但样本量较小,可能影响结论的普适性。

Experiment

实验覆盖了数学、编程和视觉推理三大任务领域,具体设置如下:

Further Thoughts

本文揭示了 RLVR 在激发新推理能力上的局限性,提示我们重新思考强化学习在 LLM 领域的应用方式。当前 RLVR 的奖励机制过于简单,仅关注最终答案正确性,忽略了推理过程的多样性和创新性。未来是否可以通过设计更复杂的奖励函数(如奖励中间推理步骤的逻辑一致性或多样性)来鼓励模型探索新推理路径?此外,论文中提到的多轮代理-环境交互是一个值得探索的方向,这与传统 RL 在游戏领域(如 Atari、Go)的成功经验相呼应,可能通过模拟更真实的推理环境(如多步对话或动态问题解决)激发新能力。

另一个有趣的联系是与联邦学习(Federated Learning)或持续学习(Continual Learning)的结合。RLVR 的局限可能部分源于训练数据的静态性,若能通过持续学习从多样化环境中动态更新模型,或通过联邦学习整合多源推理数据,是否能突破基础模型的边界?此外,蒸馏方法在扩展推理能力上的成功提示我们,是否可以将 RLVR 与蒸馏结合,利用强教师模型引导 RL 探索新推理空间?这可能是一个值得深入研究的方向。



Previous Post
CB-cPIR: Code-Based Computational Private Information Retrieval
Next Post
A Comprehensive Analysis of Adversarial Attacks against Spam Filters