Skip to content
Go back 2505.17813 arXiv logo

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Published:  at  11:15 AM
87.20 🤔

本文挑战了推理 LLMs 中更长思考链提升性能的假设,提出 short-m@k 推理方法,通过优先选择较短推理链实现高达 34.5% 的准确率提升和 40% 的计算量减少,并通过微调验证了短推理链训练的有效性。

Large Language Model, Reasoning, Efficiency, Supervised Learning, Inference Optimization

Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz

FAIR Team, Meta, The Hebrew University of Jerusalem

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂推理任务中通常依赖于测试时计算的扩展,通过生成冗长的‘思考链’(thinking chains)来提升性能。然而,这种方法带来了高昂的计算成本和较长的推理时间。本文挑战了‘更长的思考链等于更好的推理能力’这一普遍假设,指出较短的推理链在单个问题中往往更准确(准确率提升高达 34.5%),并基于此提出了更高效的推理方法和训练策略,旨在解决推理 LLMs 在计算效率和性能之间的平衡问题。

Method

本文提出了 short-m@k 推理方法,核心思想是利用较短推理链更可能正确的特性来提升效率和性能。具体步骤如下:

作者特别关注了 short-1@k(最短一个推理链)和 short-3@k(最短三个推理链)两种变体,前者在低计算预算下效率最高,后者在性能和效率之间取得较好平衡。此外,作者还通过在短推理链数据集(S1-short)上微调模型,探索了训练策略对推理效率和准确性的影响。

批判性思考:尽管方法创新性较强,但其依赖于批量解码的并行生成,在内存受限场景下可能受限,且未提供非批量解码下的优化方案。此外,方法缺乏对‘为何短推理链更准确’的理论支持,仅基于实验现象设计策略,可能限制其在不同任务上的适用性。

Experiment

实验主要围绕三个领先的推理 LLMs(LN-Super-49B, R1-32B, QwQ-32B)在三个数学推理基准数据集(AIME 2024, AIME 2025, HMMT February 2025)上展开,具体设置如下:

实验设计评价:实验设置较为全面,涵盖了多个模型和数据集,并从多个维度(准确性、计算量、时间)评估方法效果。然而,数据集仅限于数学推理,可能无法泛化到其他推理任务。此外,微调实验仅在单一模型和数据集上进行,缺乏多样性支持结论的普适性。结果与预期一致,较短推理链确实在效率和性能上具有优势,但缺乏对现象背后原因的深入分析。

批判性思考:实验结果看似令人信服,但作者未充分探讨为何较短推理链更准确,可能是模型在长推理中引入了噪声或错误假设。此外,实验未考虑不同难度问题的细化影响,可能掩盖了某些特定场景下长推理链的优势。

Further Thoughts

本文提出的‘短推理链更优’的观点让我联想到人类认知中的‘过度思考’现象,是否 LLMs 在长推理链中也会陷入类似困境,累积错误假设或无关信息?这一问题值得进一步探索,或许可以通过分析推理链中 token 的语义相关性或错误传播路径来揭示原因。此外,short-m@k 方法的提前终止策略可能适用于其他自回归生成任务,如文本生成或代码生成,特别是在实时应用场景中对效率要求较高的情况下。另一个有趣的方向是结合自适应计算(adaptive computation)理念,根据问题难度动态调整推理链长度,而非固定 m 值,这可能进一步提升方法的灵活性和性能。最后,本文的效率优化思路也让我思考在边缘设备或资源受限环境中部署 LLMs 的可能性,若能结合参数高效微调(如 LoRA)与推理优化,或许能显著降低推理成本,推动 LLMs 的普及应用。



Previous Post
A Statistical Case Against Empirical Human-AI Alignment
Next Post
LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging