Skip to content
Go back 2505.07686 arXiv logo

S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models

Published:  at  11:10 AM
85.99 🤔

本文提出 S-GRPO 方法,通过串行组生成和递减奖励策略调控大型语言模型中间推理过程,在多个基准数据集上实现推理长度减少 35.4%~61.1% 和准确率提升 0.72%~6.08%,显著提升推理效率。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Test Time

Muzhi Dai, Chenxu Yang, Qingyi Si

Huawei Technologies Co., Ltd., Institute of Information Engineering, Chinese Academy of Sciences

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中通过延长思维链(Chain-of-Thought, CoT)生成过程可以显著提升性能,但现有研究发现,即使是先进的推理模型(如 Qwen3)也普遍存在过度思考(Overthinking)问题,即生成冗长且包含无关信息的推理序列。这不仅增加了计算开销,还可能因偏离有效推理路径而降低准确性。传统基于结果的强化学习(Outcome-reward RL,如 GRPO)依赖最终结果的 0/1 奖励,忽视了对中间推理过程的调控,导致无法有效解决冗余问题。本文提出了一种新的方法,旨在通过调控中间推理步骤实现早期退出(Early Exit),从而提高推理效率并保持准确性。

Method

S-GRPO(Serial-Group Decaying-Reward Policy Optimization)是一种新型强化学习方法,旨在通过串行组生成和递减奖励策略调控大型语言模型的中间推理过程,实现高效推理。其核心思想和步骤如下:

批判性思考:虽然递减奖励策略在理论上能够激励早期高质量推理,但其指数递减设计可能对复杂任务不利,过度压缩推理深度可能导致欠思考。此外,串行组生成依赖于随机截断位置,可能会引入不稳定性,尤其是在推理路径长度变化较大的情况下。论文未充分讨论如何平衡效率与推理完整性之间的矛盾。

Experiment

实验在多个推理模型(包括 DeepSeek-R1-Distill-Qwen-7B/14B 和 Qwen3-8B/14B)和五个基准数据集(GSM8K, AIME 2024, AMC 2023, MATH-500, GPQA Diamond)上进行,涵盖数学和科学推理任务。实验设置包括:

批判性分析:实验结果令人印象深刻,设置较为全面,涵盖多种模型和任务难度。然而,实验主要集中在数学和科学推理领域,未能验证方法在其他类型任务(如语言推理或多模态任务)上的泛化能力。此外,论文未提供训练成本和计算开销的详细分析,实际部署中的可行性存疑。消融实验显示方法对特定设计高度依赖,若核心机制(如递减奖励)不适用,可能导致性能大幅下降。最后,实验中未充分探讨在极低长度预算下准确率是否会显著下降,这可能是早期退出策略的潜在风险。

Further Thoughts

S-GRPO 的核心思想——通过强化学习调控中间生成过程——具有广泛的启发性,可能适用于其他生成任务,如对话系统或文本摘要中冗余内容的削减。然而,其依赖于明确的规则奖励(Rule-based Reward)可能限制其在主观性较强任务中的应用,例如情感分析或创意写作,未来可以探索结合主观评估或多目标奖励机制来扩展其适用范围。此外,S-GRPO 的早期退出策略与计算资源受限的边缘设备部署场景高度相关,值得进一步研究如何在低资源环境下优化其性能。另一个值得思考的方向是,是否可以通过自适应调整递减奖励的速率(而非固定的指数递减)来更好地平衡效率与推理深度,尤其是在复杂任务中避免欠思考问题。最后,与近期的一些工作(如基于动态规划的推理路径优化)结合,可能进一步提升 S-GRPO 在长上下文推理中的表现。



Previous Post
Investigating Task Arithmetic for Zero-Shot Information Retrieval
Next Post
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging