Training Language Models to Reason Efficiently

本文提出了一种通过强化学习训练大型推理模型以高效推理的方法，利用长度惩罚目标函数和可调参数α显著降低推理成本，同时在多个数学数据集上保持大部分准确性。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Chain-of-Thought

Daman Arora, Andrea Zanette

Carnegie Mellon University

Generated by grok-3

Background Problem

大型语言模型（LLMs）通过扩大模型规模和训练数据取得了显著进展，但这种方法的回报递减，特别是在需要高级推理的任务中。大型推理模型通过生成长链推理（Chain-of-Thought, CoT）在问题解决能力上取得了突破，但推理过程中的高计算成本（由于注意力机制的二次方成本和KV缓存的线性增长）导致部署成本高昂，影响经济可行性、用户体验和环境可持续性。本文旨在解决这一关键问题：如何在保持推理模型准确性的同时显著降低推理成本。

Method

本文提出了一种通过强化学习（RL）训练大型推理模型以高效推理的方法，核心思想是鼓励模型生成正确答案的同时尽量缩短推理链（CoT）的长度。具体步骤如下：

目标函数设计：在传统的准确性目标函数基础上，引入一个长度惩罚项，通过可调参数α（范围在[0,1)）控制对响应长度的惩罚力度，公式为： $\mathbb{E}\left[1\{y=y^*(x)\}(1-\alpha f(\text{LEN}(y)))\right]$ ，其中 $f(\text{LEN}(y))$ 是一个单调函数，对响应长度进行归一化处理并应用sigmoid函数以确保惩罚的合理性。
长度归一化：为避免对复杂问题长CoT的过度惩罚，采用逐提示（per-prompt）的均值和标准差对长度进行归一化处理。
优化方法：由于目标函数不可微分，采用策略梯度方法（PPO）进行优化，使用REINFORCE Leave One Out (RLOO)作为优势估计器，简化了实现复杂度。
理论分析：在简化假设下（例如模型具有足够表达能力），证明了方法在群体水平上能保持准确性并生成最短正确响应。 批判性思考：虽然理论分析提供了理想化的保证，但实际应用中长度惩罚可能导致模型在复杂问题上过早终止推理，影响准确性。此外，α的选择对结果影响较大，但论文未提供系统性指导如何根据具体应用场景选择合适的α值。

Experiment

实验基于两个开源大型推理模型（DeepSeek-R1-Distill-Qwen-1.5B和7B）进行，数据集包括GSM8K（小学级别数学问题）、MATH500（较难数学问题）和AIME2024（竞赛级别数学问题），以及CommonSenseQA和Logical Deduction用于验证泛化性。训练数据从Numina Math数据集的子集中选取3200个提示，确保问题有可解析的数值答案。实验设置了不同的α值（0到0.4）以探索准确性和效率的权衡，并与三种基线方法（生成截断、拒绝采样+SFT、DPO）进行对比。结果显示：

效果：方法能在显著减少token使用量的同时保持大部分准确性。例如，在7B模型上，α=0.1时，MATH数据集的CoT长度减少36%（从约4000到2600个token），准确性仅下降2.2%；在GSM8K上，α=0.2时token减少83%，准确性下降1.7%。
问题难度依赖：token减少幅度与问题难度相关，简单问题（如GSM8K）减少更多，复杂问题（如AIME）减少较少，表明模型对简单问题更浪费计算资源。
与基线对比：相比SFT和DPO，本方法在相同token使用量下表现更优，且通过α可控地调整效率，而基线方法缺乏这种灵活性。
实验设置合理性：数据集选择覆盖了不同难度，评估指标（平均pass rate@k）考虑了多次采样的准确性，设置较为全面。但基线方法较为简单，未包括更复杂的对比方法（如其他RL变体），可能高估了方法的相对优势。此外，RLOO实现中的长度偏差问题被发现并讨论，但未完全解决，可能影响结果的可重复性。 批判性思考：实验结果虽然表明方法有效，但准确性下降（尽管较小）在某些高精度应用中可能不可接受。实验未充分探讨α值选择的鲁棒性，且对非数学数据集的评估结果未详细展开，泛化性证据不足。

Further Thoughts

本文的方法通过引入长度惩罚来优化推理效率，为大型语言模型的实际部署提供了一个有前景的方向。然而，我认为其潜力可以通过结合其他高效推理技术进一步挖掘，例如与模型剪枝或量化方法结合，以在模型规模和推理长度两个维度上同时降低成本。此外，α参数的静态选择可能限制了模型对动态任务需求的适应性，是否可以通过元学习或自适应策略根据问题难度实时调整α值，是一个值得探索的方向。另一个有趣的联系是与最近的研究（如Aggarwal & Welleck, 2025）关于精确token约束的训练方法相比，本文方法虽然灵活性更高，但缺乏对精确延迟需求的控制，未来可以尝试将两者结合，开发出既高效又精确的推理模型。最后，考虑到推理模型在简单问题上的计算浪费现象，是否可以通过预处理机制快速识别问题难度并分配计算资源，也是一个值得深入研究的方向。