Skip to content
Go back 2505.18404 arXiv logo

Thought calibration: Efficient and confident test-time scaling

Published:  at  11:22 AM
87.79 🤔

本文提出‘思想校准’方法,通过推理树抽象和轻量级探针动态决定语言模型推理终止时机,在分布内数据上减少高达60%的思考token,同时保持性能,并在分布外数据上实现20%的减少。

Large Language Model, Reasoning, Efficiency, Test Time, Adaptive Systems

Menghua Wu, Cai Zhou, Stephen Bates, Tommi Jaakkola

Massachusetts Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLM)通过在测试时投入更多计算资源(即更长的推理过程)来提升推理性能,这种测试时扩展(Test-Time Scaling)带来了显著的计算成本。并非所有问题都需要同样多的推理时间,简单限制推理预算会导致性能下降,而过度思考则浪费资源。因此,本研究致力于解决如何动态决定推理终止时机的问题,以在保持性能的同时减少计算开销,并探索是否能为这种决策提供统计上的风险控制保证。

Method

本文提出了‘思想校准’(Thought Calibration)方法,旨在动态决定语言模型何时停止推理。其核心思想和实现步骤如下:

批判性思考:虽然推理树的抽象概念有趣,但其在实际操作中的可验证性存疑,模型生成的内容未必严格符合树状结构。此外,线性探针可能过于简单,难以捕捉复杂的推理动态,尤其在分布外数据上可能失效。‘Learn then Test’框架的理论保证依赖于校准数据与测试数据的相似性,这在现实应用中可能难以满足。

Experiment

实验在三种推理语言模型(DeepSeek-R1 distilled Qwen 32B、Llama 70B、QwQ 32B)和四个数据集(s1K-1.1、AIME 24、GPQA Diamond、MATH-500)上进行评估,分为分布内和分布外两种设置:

批判性思考:虽然结果显示方法有效,但60%的token减少主要在分布内数据上实现,分布外数据效果显著降低,表明方法的泛化性有限。‘Supervised’探针的过自信问题也暴露了方法在风险控制上的不足。此外,实验未充分探讨不同模型架构或更大规模数据集对结果的影响。

Further Thoughts

思想校准的概念为测试时扩展提供了一个有趣的视角,但其依赖于推理树的抽象定义可能过于理想化,实际推理过程可能更加无序和非结构化。未来研究可以探索更复杂的探针架构(如Transformer-based探针)或自适应校准策略,以提升方法在分布外数据上的鲁棒性。此外,是否可以将思想校准与其他测试时优化技术(如动态模型架构调整)结合,以进一步降低计算成本?另一个值得思考的方向是,推理终止决策是否可以与用户交互结合,例如通过实时反馈调整推理深度,这可能在人机交互领域(如教育或决策支持系统)中具有重要应用价值。



Previous Post
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
Next Post
Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection