本文提出 ConciseR,一种两阶段强化学习框架,通过 GRPO++ 提升推理能力并通过 L-GRPO 优化响应长度,在保持准确性的同时显著减少 CoT 响应长度,优于多个基准数据集上的现有方法。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Generative AI
Mingyang Song, Mao Zheng
Tencent Hunyuan
Generated by grok-3
Background Problem
大型语言模型(LLMs)在推理任务中通过长链式推理(Chain-of-Thought, CoT)生成详细的推理过程以提升性能已成为研究热点。然而,现有模型普遍存在过度思考现象,表现为冗长的CoT响应中包含无关信息和重复思考模式,不仅增加计算成本,还可能因逻辑偏差导致推理错误。本文旨在解决这一问题,提出了一种方法以在保持推理准确性的同时生成更简洁的CoT响应,探索推理能力与响应长度之间的平衡。
Method
本文提出了一种名为 ConciseR 的两阶段强化学习框架,旨在实现大型语言模型的简洁推理,核心思想是遵循’先走再跑’原则,即先确保推理准确性,再优化响应长度。具体方法如下:
- 第一阶段:GRPO++(Group Relative Policy Optimization with Clip-Higher and Dynamic Sampling):基于 GRPO 算法,通过引入’Clip-Higher’和’动态采样’技术增强模型多样性和训练稳定性,同时加入熵奖励(Entropy Bonus)以鼓励探索,目标是提升模型的推理能力。这一阶段允许响应长度增加,以确保模型能够正确解决问题。
- 第二阶段:L-GRPO(Length-aware Group Relative Policy Optimization):在确保所有样本的推理结果正确后,引入长度感知的奖励函数,通过将剩余最大响应长度作为奖励的一部分(公式为 ,其中 基于剩余上下文长度),优化模型生成更简洁的CoT响应,同时保持准确性。
- 奖励设计:采用基于规则的奖励模型,直接以任务准确性作为奖励,避免奖励黑客问题;同时在第二阶段通过间接长度奖励避免模型跳过推理步骤。
批判性思考:虽然两阶段设计理念清晰,但 GRPO++ 阶段是否会过度鼓励长响应,导致第二阶段优化困难?此外,L-GRPO 的长度奖励函数依赖于最大上下文长度,可能在不同任务或上下文限制下表现不一致,缺乏对推理质量的直接约束,可能导致模型在追求简洁时丢失关键推理步骤。
Experiment
实验基于 Qwen2.5-Math-7B 模型,使用 verl 框架进行训练,数据集包括 DeepScaleR、DAPO-Math-17K 和 MATH 等约59K个数学推理问题。评估在 AIME 2024、MATH-500、AMC 2023、Minerva 和 Olympiad 等五个竞赛级基准数据集上进行,采用 Pass@1 准确率指标,并记录响应长度变化。
- 结果:ConciseR 在五个基准数据集上的平均准确率较基线模型 Qwen2.5-Math-7B 提升了55.2%,达到56.1%的平均得分,优于多个无强化学习(Zero RL)范式的基线模型。同时,响应长度在各基准上减少了约20%-23%,显示出简洁化的效果。
- 实验设计分析:两阶段训练分别针对推理能力和简洁性优化,设置合理,但对比基线主要为无强化学习的模型,缺乏与最新强化学习方法的直接比较,可能高估了方法的优越性。此外,响应长度减少的百分比看似显著,但未提供实际计算时间或资源节省的具体数据,难以判断其实际影响。
- 批判性思考:实验结果表明准确性在第二阶段未明显下降,但是否因数据集偏向简单问题而掩盖了潜在问题?此外,响应长度减少是否伴随关键推理步骤的丢失,论文未深入分析生成内容的质量,仅通过关键词频率变化间接推测,缺乏直接证据支持简洁化未损害推理深度。
Further Thoughts
ConciseR 的两阶段设计提供了一个有趣的视角,即在强化学习中分阶段优化不同目标(准确性和简洁性),这可能启发其他领域的多目标优化问题,例如在机器人控制中先确保任务完成再优化能量消耗。然而,论文未充分探讨简洁化对推理质量的潜在负面影响,未来研究应引入更细致的评估指标,如推理步骤的完整性或逻辑一致性,而不仅仅是准确率和长度。此外,L-GRPO 的长度奖励设计依赖于最大上下文长度,可能在长上下文任务(如法律文档分析)中失效,是否可以通过引入内容密度或信息熵等指标进一步改进奖励函数?
联想到近期在多模态模型中的类似问题,冗长输出不仅限于文本推理,在图像描述或视频摘要任务中也存在类似挑战。ConciseR 的方法是否可以迁移到这些领域,通过强化学习优化多模态输出的简洁性?例如,在文本到图像生成中,是否可以通过类似的两阶段训练减少生成描述的冗余性?这可能是一个值得探索的跨领域应用方向。