本文通过提出基于强化学习的LASER系列方法(LASER, LASER-D, LASER-DE),利用动态和难度感知的长度奖励塑造,在保持大型推理模型性能的同时显著提高token效率,在多个数学推理基准上实现了Pareto最优的准确率和效率权衡。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Adaptive Systems
Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
The Hong Kong University of Science and Technology, City University of Hong Kong, University of Waterloo, Apple
Generated by grok-3
Background Problem
大型推理模型(LRMs)通过强化学习(RL)生成的长推理轨迹(Chain of Thought, CoT)在解决复杂问题时表现出色,但往往伴随着冗余输出,导致token使用效率低下,增加了计算成本和潜在的错误累积(即‘过度思考’问题)。本文旨在解决这一关键问题:如何在保持推理性能的同时显著提高token效率,减少不必要的冗长推理过程。
Method
本文提出了一种基于强化学习的推理效率优化框架,主要方法包括以下几个方面:
- 统一视角:将多种高效推理方法(如截断法、基于组的奖励、基于预算的奖励)统一为基于长度的奖励塑造框架,奖励函数由正确性项 和长度奖励项 组成,通过控制变量 调节两者平衡。
- LASER(Length-bAsed StEp Reward):基于目标长度 设计一个阶梯奖励函数,对正确且长度小于 的响应给予额外奖励,避免硬性截断对长但正确推理的过度惩罚,同时设置较大的上下文窗口以减少截断发生。
- LASER-D(Dynamic and Difficulty-aware):针对LASER的局限性,引入动态调整和难度感知机制,将问题分为易、中、难三类,分别设置不同的目标长度 ,并通过自动适应机制(基于监控数据集计算预期正确响应ECR)动态调整目标长度。
- LASER-DE:LASER-D的变体,对错误响应鼓励进一步探索,减少对超出目标长度的错误响应的惩罚,以发现潜在的正确推理模式。 批判性思考:虽然方法设计有创新性,但难度分类依赖于批次内正确率,可能存在分类不准确的风险,尤其是在数据分布不均时。此外,动态调整机制虽然自动化,但其监控数据集的选择和更新频率可能影响稳定性,论文未充分讨论这些潜在问题。
Experiment
实验基于三个不同规模的模型(DeepSeek-R1-Distill-Qwen-1.5B, 7B, 32B)进行,使用DeepScaleR-Preview-Dataset(40K数学竞赛问题)训练,并在MATH500, AIME2024, AMC2023, OlympiadBench等四个基准上评估,同时在GPQA, MMLU, LSAT等域外基准上测试泛化能力。
- 设置合理性:实验设置涵盖了多种模型规模和任务难度,基准选择具有代表性,参数调整(如)也考虑了正确性和长度惩罚的平衡。使用Pareto最优前沿评估方法和效率权衡是合理的。
- 结果分析:LASER系列方法在AIME2024上表现出色,LASER-D和LASER-DE在1.5B模型上分别提升了+6.1%准确率,同时减少63%的token使用量;在7B和32B模型上,LASER-D也实现了显著的准确率提升(如7B模型在AIME上+5.2%)和token减少。域外基准测试显示了良好的泛化能力。
- 批判性思考:虽然结果在某些基准上令人印象深刻,但实验主要集中在数学推理领域,缺乏对其他类型任务(如语言推理或多模态任务)的验证,可能限制方法的普适性。此外,监控数据集规模较小(500样本),可能不足以代表训练数据的全貌,导致动态调整的偏差。论文未充分讨论实验结果的统计显著性,也未提供足够多的消融实验来验证各组件(如难度感知和动态调整)的独立贡献。
Further Thoughts
LASER系列方法的动态和难度感知机制为强化学习在高效推理中的应用提供了一个有价值的思路,但其依赖于问题难度的分类和实时调整可能在实际部署中面临挑战,例如在数据分布快速变化或计算资源受限的场景下。进一步研究可以探索更鲁棒的难度评估方法,例如结合预训练模型的预测置信度或历史推理轨迹特征,而不仅仅依赖批次内正确率。此外,论文中提到的‘自反思’行为减少是否真正提升了推理质量仍需更多定量分析,可以借鉴认知科学中的推理行为模型,设计更细粒度的评估指标,验证高效推理是否牺牲了某些关键推理能力。另一个有趣的方向是将LASER方法与其他高效推理技术(如知识蒸馏或模型剪枝)结合,进一步压缩模型输出同时保持性能,这可能对边缘设备上的推理应用具有重要意义。