本文提出 S-GRPO 方法,通过串行组生成和递减奖励策略调控大型语言模型中间推理过程,在多个基准数据集上实现推理长度减少 35.4%~61.1% 和准确率提升 0.72%~6.08%,显著提升推理效率。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Test Time
Muzhi Dai, Chenxu Yang, Qingyi Si
Huawei Technologies Co., Ltd., Institute of Information Engineering, Chinese Academy of Sciences
Generated by grok-3
Background Problem
大型语言模型(LLMs)在推理任务中通过延长思维链(Chain-of-Thought, CoT)生成过程可以显著提升性能,但现有研究发现,即使是先进的推理模型(如 Qwen3)也普遍存在过度思考(Overthinking)问题,即生成冗长且包含无关信息的推理序列。这不仅增加了计算开销,还可能因偏离有效推理路径而降低准确性。传统基于结果的强化学习(Outcome-reward RL,如 GRPO)依赖最终结果的 0/1 奖励,忽视了对中间推理过程的调控,导致无法有效解决冗余问题。本文提出了一种新的方法,旨在通过调控中间推理步骤实现早期退出(Early Exit),从而提高推理效率并保持准确性。
Method
S-GRPO(Serial-Group Decaying-Reward Policy Optimization)是一种新型强化学习方法,旨在通过串行组生成和递减奖励策略调控大型语言模型的中间推理过程,实现高效推理。其核心思想和步骤如下:
- 串行组生成(Serial-Group Generation):与传统 GRPO 的并行采样不同,S-GRPO 针对单个查询生成一条完整推理路径(Full Thought Rollout),然后在该路径上随机选择多个时间点进行早期退出干预(Early-exit Thought Rollout),生成中间答案,形成一个串行组。这种设计允许模型在不同推理深度评估思维充分性。
- 递减奖励策略(Decaying Reward Strategy):对串行组中正确答案根据退出位置分配奖励,早期退出的正确答案获得更高奖励(奖励公式为 ,其中 为截至当前位置的正确答案累计数),错误答案奖励为 0。这种机制鼓励模型在早期生成高质量推理并尽早终止。
- 优势计算与参数更新(Advantage Computation and Parameter Update):基于串行组内各响应的奖励计算优势值(Advantage),并通过策略梯度更新模型参数,确保训练稳定性。
批判性思考:虽然递减奖励策略在理论上能够激励早期高质量推理,但其指数递减设计可能对复杂任务不利,过度压缩推理深度可能导致欠思考。此外,串行组生成依赖于随机截断位置,可能会引入不稳定性,尤其是在推理路径长度变化较大的情况下。论文未充分讨论如何平衡效率与推理完整性之间的矛盾。
Experiment
实验在多个推理模型(包括 DeepSeek-R1-Distill-Qwen-7B/14B 和 Qwen3-8B/14B)和五个基准数据集(GSM8K, AIME 2024, AMC 2023, MATH-500, GPQA Diamond)上进行,涵盖数学和科学推理任务。实验设置包括:
- 数据集与基准:训练数据来自 DeepMath-103K,测试集覆盖从基础到高级的推理任务,确保评估的多样性。
- 基线对比:与多种高效推理方法(如 DEER, ConCISE, GRPO, RL + Length Penalty)进行对比,评估指标为准确率(Accuracy)和生成序列长度(Token Count)。
- 结果:S-GRPO 在所有测试模型和数据集上均表现出色,平均准确率提升 0.72%~6.08%,序列长度减少 35.4%~61.1%。与基线相比,S-GRPO 在简单和复杂任务上均实现效率与准确性的协同提升,尤其在 DeepSeek-R1-Distill-Qwen-7B 上,AMC 2023 准确率提升 10.3 点,仅用 36% 的推理预算。
- 消融实验:验证了递减奖励和串行组生成机制的重要性,去掉这些设计后准确率下降(如 Qwen3-8B 上整体准确率下降 1.26%~2.56%),推理长度显著增加。
批判性分析:实验结果令人印象深刻,设置较为全面,涵盖多种模型和任务难度。然而,实验主要集中在数学和科学推理领域,未能验证方法在其他类型任务(如语言推理或多模态任务)上的泛化能力。此外,论文未提供训练成本和计算开销的详细分析,实际部署中的可行性存疑。消融实验显示方法对特定设计高度依赖,若核心机制(如递减奖励)不适用,可能导致性能大幅下降。最后,实验中未充分探讨在极低长度预算下准确率是否会显著下降,这可能是早期退出策略的潜在风险。
Further Thoughts
S-GRPO 的核心思想——通过强化学习调控中间生成过程——具有广泛的启发性,可能适用于其他生成任务,如对话系统或文本摘要中冗余内容的削减。然而,其依赖于明确的规则奖励(Rule-based Reward)可能限制其在主观性较强任务中的应用,例如情感分析或创意写作,未来可以探索结合主观评估或多目标奖励机制来扩展其适用范围。此外,S-GRPO 的早期退出策略与计算资源受限的边缘设备部署场景高度相关,值得进一步研究如何在低资源环境下优化其性能。另一个值得思考的方向是,是否可以通过自适应调整递减奖励的速率(而非固定的指数递减)来更好地平衡效率与推理深度,尤其是在复杂任务中避免欠思考问题。最后,与近期的一些工作(如基于动态规划的推理路径优化)结合,可能进一步提升 S-GRPO 在长上下文推理中的表现。