Skip to content
Go back 2505.16122 arXiv logo

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Published:  at  11:12 AM
90.98 🤔

本文提出 PLAN-AND-BUDGET 框架,通过结构化推理和基于不确定性的自适应 token 预算分配,显著提升大型语言模型在推理任务中的计算效率,E3 指标最高提升 187.5%,同时保持准确率。

Large Language Model, Reasoning, Efficiency, Test Time, Planning

Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou

MIT CSAIL, Virginia Tech, Michigan State University, University of Virginia

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂推理任务中表现出色,但其推理过程常常存在计算效率低下的问题,表现为‘过思考’(对简单问题生成冗长推理)和‘欠思考’(对复杂问题推理不足)。 这一问题在需要严格计算和时间限制的现实场景中尤为突出,特别是在教育、金融、法律和科学研究等高风险领域。论文通过实证研究揭示了‘推理失调’(Reasoning Miscalibration)现象,并提出核心问题:如何根据任务复杂性自适应地分配计算资源,以提高推理效率并减少资源浪费。

Method

论文提出了 PLAN-AND-BUDGET 框架,这是一种模型无关的测试时方法,旨在通过结构化推理和自适应预算分配提高 LLMs 的推理效率。其核心思想和步骤如下:

Experiment

论文在三个代表性推理任务上进行了广泛实验:数学推理(MATH-500)、指令跟随(NaturalInstructions)和代理规划(TravelPlanner),使用四个先进的 LLMs(DS-Qwen-32B、QwQ-32B、DS-LLaMA-70B、o4-mini)。

Further Thoughts

PLAN-AND-BUDGET 提供了一种有前景的测试时优化策略,但其依赖额外 LLM 调用进行规划可能在实际部署中增加延迟和成本,未来是否能通过单一模型内化这一过程值得探索。此外,该方法的不确定性估计和预算分配策略可能与任务类型高度相关,例如在高度创造性或非结构化任务中,早期步骤未必是高不确定性的关键点,这提示我们需要更动态的自适应机制。另一个有趣的方向是结合该方法与参数高效微调(如 Low-Rank Adaptation),以进一步提升小模型在复杂推理任务中的竞争力,特别是在资源受限的边缘设备上。最后,E3 指标的提出是一个亮点,但其设计是否适用于所有任务类型仍需更多跨领域验证,例如在生成任务中,token 数量与质量的关系可能更为复杂,需探索更灵活的评估框架。



Previous Post
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios
Next Post
The Effect of Language Diversity When Fine-Tuning Large Language Models for Translation