Skip to content
Go back 2505.00127 arXiv logo

Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

Published:  at  01:18 AM
89.54 😐

本文通过实证研究发现,大型语言模型在推理任务中存在”过度思考”简单问题和”思考不足”困难问题的现象,其推理长度与正确性呈非单调关系,且简单偏好更短回答可在保持准确率的同时显著减少生成长度。

Large Language Model, Reasoning, Efficiency, Instruction Tuning, Adaptive Systems

Jinyan Su, Jennifer Healey, Preslav Nakov, Claire Cardie

Cornell University, Adobe Research, MBZUAI

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)在推理能力上取得了显著进展,特别是通过生成详细的思维链(Chain-of-Thought, CoT)。人们普遍认为更长的推理过程能带来更好的性能,因此模型被不断优化以生成更长的推理。然而,最近的研究开始表明,过长的回答有时反而会降低准确率,而非提升。这种”过度思考”(overthinking)现象,即模型即使对简单问题也生成冗长的输出,引起了关注。目前,推理长度与答案正确性之间的复杂关系尚未得到系统性的深入研究,尤其不清楚何时长推理有益,何时仅增加开销。因此,需要对这种关系进行系统性的实证分析,以更好地理解LLM的推理行为,并指导构建更有效、自适应的推理模型。

Method

Experiment

Further Thoughts

这项研究揭示了大型语言模型在推理长度上的”自我意识”不足。模型在简单问题上倾向于”想太多”,生成不必要的长推理,而在困难问题上则倾向于”想太少”,未能进行足够的推理。这表明模型可能无法准确判断问题难度并相应地调整其推理深度。这与人类解决问题的过程形成对比,人类通常会根据问题的感知难度来分配思考时间和精力。未来的工作可以探索如何赋予LLM更强的”难度感知”能力,使其能够动态地、更有效地分配计算资源和推理步骤。这可能涉及到更复杂的奖励机制、自适应的推理终止策略,或者在训练中显式地引入难度信号。此外,研究中发现简单地偏好更短的回答可以在不显著牺牲准确率的情况下减少生成长度,这提示了一种潜在的、无需标签的推理效率优化方法,值得进一步探索其泛化能力和局限性。



Previous Post
A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well?
Next Post
Weight Ensembling Improves Reasoning in Language Models