Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

本文挑战了推理 LLMs 中更长思考链提升性能的假设，提出 short-m@k 推理方法，通过优先选择较短推理链实现高达 34.5% 的准确率提升和 40% 的计算量减少，并通过微调验证了短推理链训练的有效性。

Large Language Model, Reasoning, Efficiency, Supervised Learning, Inference Optimization

Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz

FAIR Team, Meta, The Hebrew University of Jerusalem

Generated by grok-3

Background Problem

大型语言模型（LLMs）在复杂推理任务中通常依赖于测试时计算的扩展，通过生成冗长的‘思考链’（thinking chains）来提升性能。然而，这种方法带来了高昂的计算成本和较长的推理时间。本文挑战了‘更长的思考链等于更好的推理能力’这一普遍假设，指出较短的推理链在单个问题中往往更准确（准确率提升高达 34.5%），并基于此提出了更高效的推理方法和训练策略，旨在解决推理 LLMs 在计算效率和性能之间的平衡问题。

Method

本文提出了 short-m@k 推理方法，核心思想是利用较短推理链更可能正确的特性来提升效率和性能。具体步骤如下：

并行生成：对同一问题并行执行 k 个独立的推理生成过程。
提前终止：一旦最早的 m 个推理过程完成（即生成最短的 m 个思考链），立即终止所有计算。
答案选择：在完成的 m 个推理链中通过多数投票（majority voting）选择最终答案，若出现平局，则选择思考链最短的答案。

作者特别关注了 short-1@k（最短一个推理链）和 short-3@k（最短三个推理链）两种变体，前者在低计算预算下效率最高，后者在性能和效率之间取得较好平衡。此外，作者还通过在短推理链数据集（S1-short）上微调模型，探索了训练策略对推理效率和准确性的影响。

批判性思考：尽管方法创新性较强，但其依赖于批量解码的并行生成，在内存受限场景下可能受限，且未提供非批量解码下的优化方案。此外，方法缺乏对‘为何短推理链更准确’的理论支持，仅基于实验现象设计策略，可能限制其在不同任务上的适用性。

Experiment

实验主要围绕三个领先的推理 LLMs（LN-Super-49B, R1-32B, QwQ-32B）在三个数学推理基准数据集（AIME 2024, AIME 2025, HMMT February 2025）上展开，具体设置如下：

初步观察：对每个问题生成 20 个推理链，发现最短推理链比最长推理链准确率高出高达 34.5%，比随机选择的推理链高出 18.8%，且 token 数量减少 50%-67%。
推理方法对比：将 short-m@k 与标准多数投票（majority@k）在样本量、计算量和推理时间三个维度上对比。结果显示，short-1@k 在低计算预算下优于 majority@k，减少高达 40% 的思考 token 消耗，同时性能相当或更优；short-3@k 在所有计算预算下均优于 majority@k，且推理时间减少高达 33%。
微调实验：在 S1 数据集的短、长、随机推理链变体上微调 Qwen-2.5-32B 模型，发现 S1-short 模型性能提升 2.8%，思考 token 减少 5.8%，而 S1-long 模型性能无显著提升。

实验设计评价：实验设置较为全面，涵盖了多个模型和数据集，并从多个维度（准确性、计算量、时间）评估方法效果。然而，数据集仅限于数学推理，可能无法泛化到其他推理任务。此外，微调实验仅在单一模型和数据集上进行，缺乏多样性支持结论的普适性。结果与预期一致，较短推理链确实在效率和性能上具有优势，但缺乏对现象背后原因的深入分析。

批判性思考：实验结果看似令人信服，但作者未充分探讨为何较短推理链更准确，可能是模型在长推理中引入了噪声或错误假设。此外，实验未考虑不同难度问题的细化影响，可能掩盖了某些特定场景下长推理链的优势。

Further Thoughts

本文提出的‘短推理链更优’的观点让我联想到人类认知中的‘过度思考’现象，是否 LLMs 在长推理链中也会陷入类似困境，累积错误假设或无关信息？这一问题值得进一步探索，或许可以通过分析推理链中 token 的语义相关性或错误传播路径来揭示原因。此外，short-m@k 方法的提前终止策略可能适用于其他自回归生成任务，如文本生成或代码生成，特别是在实时应用场景中对效率要求较高的情况下。另一个有趣的方向是结合自适应计算（adaptive computation）理念，根据问题难度动态调整推理链长度，而非固定 m 值，这可能进一步提升方法的灵活性和性能。最后，本文的效率优化思路也让我思考在边缘设备或资源受限环境中部署 LLMs 的可能性，若能结合参数高效微调（如 LoRA）与推理优化，或许能显著降低推理成本，推动 LLMs 的普及应用。