Skip to content
Go back 2505.11274 arXiv logo

SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

Published:  at  11:12 AM
87.16 🤔

SelfBudgeter通过自适应令牌预算预测和强化学习优化,在MATH数据集上实现74.47%响应长度压缩,同时保持接近原始准确性,显著提升大型推理模型的效率。

Large Language Model, Reinforcement Learning, Reasoning, Efficiency, Pre-training

Zheng Li, Qingxiu Dong, Jingyuan Ma, Di Zhang, Zhifang Sui

National Key Laboratory for Multimedia Information Processing, School of Computer Science, Peking University

Generated by grok-3

Background Problem

近年来,大型推理模型(如O1)在复杂推理任务中表现出色,其成功主要归功于通过强化学习(RL)训练的冗长思维链(Chain of Thought, CoT)过程。然而,这些模型即使面对简单问题也倾向于过度思考,生成过长的推理过程,导致计算资源浪费和用户等待时间延长。例如,QwQ-32B模型在回答简单问题如’2+3’时,生成了比Qwen2.5-72B-Instruct模型多100倍的令牌数。现有方法(如基于提示、集成训练和路由器架构)在控制响应长度方面存在不足,缺乏精确控制、增加额外计算开销或无法自主预测最佳推理长度。SelfBudgeter旨在解决这一问题,通过自适应预测最小令牌预算并生成符合预算的响应,显著减少用户等待时间,同时允许用户预填预算以满足特定需求。

Method

SelfBudgeter是一种自适应推理策略,旨在通过自动预测令牌预算并控制输出长度来减少大型语言模型(LLM)的过度思考。其核心思想是让模型根据问题难度自主估计所需的令牌预算,并在生成响应时严格遵守这一预算(无论是自估计还是用户指定)。具体方法如下:

批判性思考:虽然方法设计合理,但其依赖于模型对问题难度的准确预估,而论文未充分讨论预估偏差可能导致的性能下降。此外,奖励函数中多个目标的平衡可能在实际应用中难以调优,尤其是当问题难度分布不均时,模型可能倾向于过度压缩或过度扩展响应长度。

Experiment

实验基于DeepSeek-R1-Distill-Qwen-1.5B模型,在GSM8K和MATH数据集上评估SelfBudgeter的性能,比较指标包括准确性(Acc)、平均响应长度(Len)和预算与响应长度的匹配度(Mat)。实验设置如下:

分析与批判:实验设置较为全面,涵盖了不同难度的数据集和多种模型配置,结果显示SelfBudgeter在长度压缩和预算遵守方面表现优异。然而,准确性在某些配置下有所下降(如MATH上的GSM初始化模型仅63.46%),表明方法在高难度任务上的稳定性不足。此外,实验未探讨模型在不同规模或领域上的泛化能力,数据集选择对结果的影响也未深入分析,可能存在cherry-picking的风险。预算匹配度的定义(偏差≤50%视为匹配)较为宽松,可能高估了方法的控制精度。

Further Thoughts

SelfBudgeter的令牌预算预测机制为资源受限环境下的推理模型部署提供了新思路,但其对问题难度预估的依赖可能在实际应用中成为瓶颈,特别是在问题分布不均或跨领域任务中。未来研究可以探索结合上下文感知或历史推理数据的动态预算调整策略,以提高预估的鲁棒性。此外,论文中提到的用户预填预算功能启发了我思考人机交互在AI推理中的潜力,或许可以通过引入实时用户反馈机制(如中途调整预算)进一步优化交互体验。另一个值得探索的方向是跨领域资源管理策略,例如借鉴云计算中的动态资源调度算法,可能为令牌分配提供更高效的解决方案。最后,SelfBudgeter在准确性与效率之间的权衡问题让我联想到多目标优化领域的研究,未来可以尝试引入Pareto前沿分析来系统评估不同配置下的性能边界。



Previous Post
Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning
Next Post
Deformable Beta Splatting