Skip to content
Go back 2505.23480 arXiv logo

Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt

Published:  at  11:28 AM
85.64 🤔

本文从自我怀疑视角量化分析长链式思维中的过度思考问题,并提出一种简单提示方法,通过评估输入有效性减少令牌消耗和自我怀疑,在数学推理任务中显著提升效率并维持准确率。

Large Language Model, Reasoning, In-Context Learning, Efficiency, Prompt Engineering

Keqin Peng, Liang Ding, Yuanxin Ouyang, Meng Fang, Dacheng Tao

Beihang University, The University of Sydney, University of Liverpool, Nanyang Technological University

Generated by grok-3

Background Problem

近年来,推理大语言模型(RLLMs)通过长链式思维(Long CoT)在复杂任务(如数学推理)中取得了显著进展。然而,长CoT也带来了过度思考(Overthinking)的问题,即模型在得出正确答案后仍进行不必要的推理步骤,导致输出冗长、计算开销增加。已有研究多从定性角度分析过度思考,而本文从自我怀疑(Self-Doubt)的视角进行量化分析,发现自我怀疑是过度思考的主要原因之一,尤其在复杂任务和缺失前提的问题中表现明显。本文旨在解决如何在不牺牲准确率的前提下减少过度思考和自我怀疑,降低推理过程中的令牌消耗。

Method

本文提出了一种简单而有效的提示(Prompting)策略,以缓解长CoT中的过度思考问题,核心思想是通过激发模型的批判能力减少对用户输入的过度依赖和自我怀疑。具体步骤如下:

这种方法不修改模型本身,仅通过调整输入提示来改变模型行为,试图在推理初期就避免不必要的自我验证和冗长推理。然而,这种方法可能存在局限性:对于复杂问题,过早质疑输入可能导致模型过于保守,错过深入推理的机会;此外,提示的有效性可能高度依赖具体任务和模型特性,泛化性存疑。

Experiment

实验在三个数学推理任务(GSM8K、GSM8K-Zero、Math-500)和四个缺失前提(MiP)数据集(MiP-Formula、MiP-SVAMP、MiP-GSM8K、MiP-Math)上进行,测试了四种广泛使用的RLLMs(DeepSeek-R1-Distill-Qwen-14B/32B/70B、Qwen3-32B)。

Further Thoughts

本文提出的提示方法虽然在数学推理任务中表现出色,但其对输入有效性的过分强调可能在其他领域(如常识问答或多模态任务)中导致模型过于谨慎,甚至拒绝回答有效问题,值得进一步探索其任务适应性。此外,自我怀疑的量化依赖第三方LLM评估,这种方法可能因评估模型的偏差而影响结果的可靠性,未来可以考虑引入人工标注或更客观的指标来验证结论。另一个有趣的方向是结合强化学习(如RLHF)进一步优化提示策略,使模型在批判能力和推理深度之间找到更好的平衡点。跨领域对比研究也可能揭示自我怀疑是否为模型训练数据中人类反馈模式的一种映射,这种洞察或许能为更高效的模型对齐方法提供启发。



Previous Post
Scaling Reasoning without Attention
Next Post
Navigating the Accuracy-Size Trade-Off with Flexible Model Merging