Concise Reasoning via Reinforcement Learning

本文提出了一种两阶段强化学习训练策略，通过在极小数据集上分阶段优化推理能力和简洁性，显著减少大型语言模型的响应长度（最高54%），同时保持甚至提升准确性，并增强低采样强度下的鲁棒性。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Pre-training

Mehdi Fatemi, Banafsheh Rafiee, Mingjie Tang, Kartik Talamadupula

Wand AI

Generated by grok-3

Background Problem

大型语言模型（LLMs）在推理任务中取得了显著进展，但其生成冗长响应的倾向增加了计算成本、资源需求和响应时间。论文质疑了普遍认为较长响应必然提高推理准确性的假设，指出这种冗长主要源于RL训练中的损失优化，而非推理的内在需求。作者通过理论分析和实证观察，揭示了简洁性与准确性之间被忽视的相关性，提出关键问题：能否通过进一步的RL训练优化推理模型，使其生成更简洁的推理链，同时不牺牲准确性？

Method

论文提出了一种两阶段强化学习（RL）训练策略，旨在减少推理链长度并保持准确性：

第一阶段：在具有挑战性的问题上进行初始训练，以提升模型的推理能力。这一阶段可能会导致响应长度增加，因为在面对负奖励（错误答案）时，PPO和GRPO等RL算法倾向于生成更长的响应以降低损失。
第二阶段：在偶尔可解的问题（即至少有一定概率能正确解答的问题）上进行针对性训练，以强制简洁性，同时保持或提升准确性。这一阶段利用了RL损失函数的特性，即在正奖励（正确答案）下倾向于缩短响应。

此外，作者通过数学分析探讨了PPO和GRPO损失函数对响应长度的影响，指出PPO在λ<1时对正确答案偏向短响应，对错误答案偏向长响应，而GRPO在特定条件下会因优势函数崩溃而失效。方法的关键创新在于利用极小数据集进行训练，挑战了当前文献中对大规模数据集的依赖。

批判性思考：尽管两阶段策略在理论上合理，但其对极小数据集的依赖可能限制模型的泛化能力，尤其是在第一阶段。此外，GRPO的崩溃模式表明其在简洁性训练中的不可靠性，作者未充分探讨如何缓解这一问题或替代方案。

Experiment

实验基于DeepSeek-R1模型（基于Qwen模型蒸馏的1.5B和7B变体），验证了两阶段RL训练策略的效果：

数据集与设置：第一阶段使用具有挑战性的问题（如AIME’24数据集的4个问题），第二阶段使用MATH数据集的8个偶尔可解问题进行训练。评估涵盖多个基准数据集（MATH500, AIME’24, AMC23, MMLU-STEM），使用温度为0.6和top-p为0.95生成样本。
结果：在第二阶段PPO训练后，R1 1.5B和7B模型的响应长度分别减少了54%和40%，同时准确性在大多数基准上保持稳定甚至有所提升（如MMLU-STEM上1.5B模型准确性从40.6%提升至53.1%）。此外，模型在低温度（温度=0）下的鲁棒性显著提高，表明训练增强了模型对采样强度的适应性。
非推理模型的改进：对未经过RL训练的Qwen-Math-v2.5模型，仅用4个MATH问题进行RL训练后，准确性提升显著（如1.5B模型在MATH500上从33.45%提升至63.05%）。
实验设计的合理性与局限：实验设置覆盖了不同难度的问题和多个基准，较为全面，但训练数据集极小（仅4-8个问题），可能导致结果对特定问题分布的依赖，泛化性存疑。此外，GRPO在易解问题上的崩溃导致实验主要依赖PPO，未充分对比两种算法的适用场景。结果虽显示简洁性与准确性的正相关，但部分基准（如AIME’24）准确性略有下降，表明可能存在权衡，作者未深入探讨如何优化这一平衡。

Further Thoughts

本文的两阶段RL训练策略为减少推理模型的计算成本和响应时间提供了新思路，但其对极小数据集的依赖引发了关于泛化能力的担忧。未来研究可以探索如何在更大规模和多样化的数据集上验证这一策略的有效性，或者结合自适应问题选择机制，根据模型当前性能动态调整训练数据的难度。此外，GRPO的崩溃模式问题提示我们需要更稳定的RL算法或混合方法来实现简洁性目标。另一个有趣的方向是将这一策略与其他领域（如多模态推理或人机交互）结合，探索简洁性训练是否能提升跨领域任务的效率和用户体验。例如，在人机交互中，简洁的推理链可能显著改善用户对模型输出的理解和信任，这与当前对可解释性和可信AI的研究趋势高度相关。