Skip to content
Go back 2502.04463 arXiv logo

Training Language Models to Reason Efficiently

Published:  at  11:14 AM
91.10 🤔

本文提出了一种通过强化学习训练大型推理模型以高效推理的方法,利用长度惩罚目标函数和可调参数α显著降低推理成本,同时在多个数学数据集上保持大部分准确性。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Chain-of-Thought

Daman Arora, Andrea Zanette

Carnegie Mellon University

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过扩大模型规模和训练数据取得了显著进展,但这种方法的回报递减,特别是在需要高级推理的任务中。大型推理模型通过生成长链推理(Chain-of-Thought, CoT)在问题解决能力上取得了突破,但推理过程中的高计算成本(由于注意力机制的二次方成本和KV缓存的线性增长)导致部署成本高昂,影响经济可行性、用户体验和环境可持续性。本文旨在解决这一关键问题:如何在保持推理模型准确性的同时显著降低推理成本。

Method

本文提出了一种通过强化学习(RL)训练大型推理模型以高效推理的方法,核心思想是鼓励模型生成正确答案的同时尽量缩短推理链(CoT)的长度。具体步骤如下:

Experiment

实验基于两个开源大型推理模型(DeepSeek-R1-Distill-Qwen-1.5B和7B)进行,数据集包括GSM8K(小学级别数学问题)、MATH500(较难数学问题)和AIME2024(竞赛级别数学问题),以及CommonSenseQA和Logical Deduction用于验证泛化性。训练数据从Numina Math数据集的子集中选取3200个提示,确保问题有可解析的数值答案。实验设置了不同的α值(0到0.4)以探索准确性和效率的权衡,并与三种基线方法(生成截断、拒绝采样+SFT、DPO)进行对比。结果显示:

Further Thoughts

本文的方法通过引入长度惩罚来优化推理效率,为大型语言模型的实际部署提供了一个有前景的方向。然而,我认为其潜力可以通过结合其他高效推理技术进一步挖掘,例如与模型剪枝或量化方法结合,以在模型规模和推理长度两个维度上同时降低成本。此外,α参数的静态选择可能限制了模型对动态任务需求的适应性,是否可以通过元学习或自适应策略根据问题难度实时调整α值,是一个值得探索的方向。另一个有趣的联系是与最近的研究(如Aggarwal & Welleck, 2025)关于精确token约束的训练方法相比,本文方法虽然灵活性更高,但缺乏对精确延迟需求的控制,未来可以尝试将两者结合,开发出既高效又精确的推理模型。最后,考虑到推理模型在简单问题上的计算浪费现象,是否可以通过预处理机制快速识别问题难度并分配计算资源,也是一个值得深入研究的方向。



Previous Post
Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning
Next Post
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection