Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

本文提出 ConciseR，一种两阶段强化学习框架，通过 GRPO++ 提升推理能力并通过 L-GRPO 优化响应长度，在保持准确性的同时显著减少 CoT 响应长度，优于多个基准数据集上的现有方法。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Generative AI

Mingyang Song, Mao Zheng

Tencent Hunyuan

Generated by grok-3

Background Problem

大型语言模型（LLMs）在推理任务中通过长链式推理（Chain-of-Thought, CoT）生成详细的推理过程以提升性能已成为研究热点。然而，现有模型普遍存在过度思考现象，表现为冗长的CoT响应中包含无关信息和重复思考模式，不仅增加计算成本，还可能因逻辑偏差导致推理错误。本文旨在解决这一问题，提出了一种方法以在保持推理准确性的同时生成更简洁的CoT响应，探索推理能力与响应长度之间的平衡。

Method

本文提出了一种名为 ConciseR 的两阶段强化学习框架，旨在实现大型语言模型的简洁推理，核心思想是遵循’先走再跑’原则，即先确保推理准确性，再优化响应长度。具体方法如下：

第一阶段：GRPO++（Group Relative Policy Optimization with Clip-Higher and Dynamic Sampling）：基于 GRPO 算法，通过引入’Clip-Higher’和’动态采样’技术增强模型多样性和训练稳定性，同时加入熵奖励（Entropy Bonus）以鼓励探索，目标是提升模型的推理能力。这一阶段允许响应长度增加，以确保模型能够正确解决问题。
第二阶段：L-GRPO（Length-aware Group Relative Policy Optimization）：在确保所有样本的推理结果正确后，引入长度感知的奖励函数，通过将剩余最大响应长度作为奖励的一部分（公式为 $\hat{r}_i = r_i + \lambda \hat{\mathcal{L}}_i$ ，其中 $\hat{\mathcal{L}}_i$ 基于剩余上下文长度），优化模型生成更简洁的CoT响应，同时保持准确性。
奖励设计：采用基于规则的奖励模型，直接以任务准确性作为奖励，避免奖励黑客问题；同时在第二阶段通过间接长度奖励避免模型跳过推理步骤。

批判性思考：虽然两阶段设计理念清晰，但 GRPO++ 阶段是否会过度鼓励长响应，导致第二阶段优化困难？此外，L-GRPO 的长度奖励函数依赖于最大上下文长度，可能在不同任务或上下文限制下表现不一致，缺乏对推理质量的直接约束，可能导致模型在追求简洁时丢失关键推理步骤。

Experiment

实验基于 Qwen2.5-Math-7B 模型，使用 verl 框架进行训练，数据集包括 DeepScaleR、DAPO-Math-17K 和 MATH 等约59K个数学推理问题。评估在 AIME 2024、MATH-500、AMC 2023、Minerva 和 Olympiad 等五个竞赛级基准数据集上进行，采用 Pass@1 准确率指标，并记录响应长度变化。

结果：ConciseR 在五个基准数据集上的平均准确率较基线模型 Qwen2.5-Math-7B 提升了55.2%，达到56.1%的平均得分，优于多个无强化学习（Zero RL）范式的基线模型。同时，响应长度在各基准上减少了约20%-23%，显示出简洁化的效果。
实验设计分析：两阶段训练分别针对推理能力和简洁性优化，设置合理，但对比基线主要为无强化学习的模型，缺乏与最新强化学习方法的直接比较，可能高估了方法的优越性。此外，响应长度减少的百分比看似显著，但未提供实际计算时间或资源节省的具体数据，难以判断其实际影响。
批判性思考：实验结果表明准确性在第二阶段未明显下降，但是否因数据集偏向简单问题而掩盖了潜在问题？此外，响应长度减少是否伴随关键推理步骤的丢失，论文未深入分析生成内容的质量，仅通过关键词频率变化间接推测，缺乏直接证据支持简洁化未损害推理深度。

Further Thoughts

ConciseR 的两阶段设计提供了一个有趣的视角，即在强化学习中分阶段优化不同目标（准确性和简洁性），这可能启发其他领域的多目标优化问题，例如在机器人控制中先确保任务完成再优化能量消耗。然而，论文未充分探讨简洁化对推理质量的潜在负面影响，未来研究应引入更细致的评估指标，如推理步骤的完整性或逻辑一致性，而不仅仅是准确率和长度。此外，L-GRPO 的长度奖励设计依赖于最大上下文长度，可能在长上下文任务（如法律文档分析）中失效，是否可以通过引入内容密度或信息熵等指标进一步改进奖励函数？

联想到近期在多模态模型中的类似问题，冗长输出不仅限于文本推理，在图像描述或视频摘要任务中也存在类似挑战。ConciseR 的方法是否可以迁移到这些领域，通过强化学习优化多模态输出的简洁性？例如，在文本到图像生成中，是否可以通过类似的两阶段训练减少生成描述的冗余性？这可能是一个值得探索的跨领域应用方向。