Skip to content
Go back 2505.15612 arXiv logo

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

Published:  at  11:22 AM
86.17 🤔

本文通过提出基于强化学习的LASER系列方法(LASER, LASER-D, LASER-DE),利用动态和难度感知的长度奖励塑造,在保持大型推理模型性能的同时显著提高token效率,在多个数学推理基准上实现了Pareto最优的准确率和效率权衡。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Adaptive Systems

Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He

The Hong Kong University of Science and Technology, City University of Hong Kong, University of Waterloo, Apple

Generated by grok-3

Background Problem

大型推理模型(LRMs)通过强化学习(RL)生成的长推理轨迹(Chain of Thought, CoT)在解决复杂问题时表现出色,但往往伴随着冗余输出,导致token使用效率低下,增加了计算成本和潜在的错误累积(即‘过度思考’问题)。本文旨在解决这一关键问题:如何在保持推理性能的同时显著提高token效率,减少不必要的冗长推理过程。

Method

本文提出了一种基于强化学习的推理效率优化框架,主要方法包括以下几个方面:

Experiment

实验基于三个不同规模的模型(DeepSeek-R1-Distill-Qwen-1.5B, 7B, 32B)进行,使用DeepScaleR-Preview-Dataset(40K数学竞赛问题)训练,并在MATH500, AIME2024, AMC2023, OlympiadBench等四个基准上评估,同时在GPQA, MMLU, LSAT等域外基准上测试泛化能力。

Further Thoughts

LASER系列方法的动态和难度感知机制为强化学习在高效推理中的应用提供了一个有价值的思路,但其依赖于问题难度的分类和实时调整可能在实际部署中面临挑战,例如在数据分布快速变化或计算资源受限的场景下。进一步研究可以探索更鲁棒的难度评估方法,例如结合预训练模型的预测置信度或历史推理轨迹特征,而不仅仅依赖批次内正确率。此外,论文中提到的‘自反思’行为减少是否真正提升了推理质量仍需更多定量分析,可以借鉴认知科学中的推理行为模型,设计更细粒度的评估指标,验证高效推理是否牺牲了某些关键推理能力。另一个有趣的方向是将LASER方法与其他高效推理技术(如知识蒸馏或模型剪枝)结合,进一步压缩模型输出同时保持性能,这可能对边缘设备上的推理应用具有重要意义。



Previous Post
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space
Next Post
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards