本文挑战了推理 LLMs 中更长思考链提升性能的假设,提出 short-m@k 推理方法,通过优先选择较短推理链实现高达 34.5% 的准确率提升和 40% 的计算量减少,并通过微调验证了短推理链训练的有效性。
Large Language Model, Reasoning, Efficiency, Supervised Learning, Inference Optimization
Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz
FAIR Team, Meta, The Hebrew University of Jerusalem
Generated by grok-3
Background Problem
大型语言模型(LLMs)在复杂推理任务中通常依赖于测试时计算的扩展,通过生成冗长的‘思考链’(thinking chains)来提升性能。然而,这种方法带来了高昂的计算成本和较长的推理时间。本文挑战了‘更长的思考链等于更好的推理能力’这一普遍假设,指出较短的推理链在单个问题中往往更准确(准确率提升高达 34.5%),并基于此提出了更高效的推理方法和训练策略,旨在解决推理 LLMs 在计算效率和性能之间的平衡问题。
Method
本文提出了 short-m@k 推理方法,核心思想是利用较短推理链更可能正确的特性来提升效率和性能。具体步骤如下:
- 并行生成:对同一问题并行执行 k 个独立的推理生成过程。
- 提前终止:一旦最早的 m 个推理过程完成(即生成最短的 m 个思考链),立即终止所有计算。
- 答案选择:在完成的 m 个推理链中通过多数投票(majority voting)选择最终答案,若出现平局,则选择思考链最短的答案。
作者特别关注了 short-1@k(最短一个推理链)和 short-3@k(最短三个推理链)两种变体,前者在低计算预算下效率最高,后者在性能和效率之间取得较好平衡。此外,作者还通过在短推理链数据集(S1-short)上微调模型,探索了训练策略对推理效率和准确性的影响。
批判性思考:尽管方法创新性较强,但其依赖于批量解码的并行生成,在内存受限场景下可能受限,且未提供非批量解码下的优化方案。此外,方法缺乏对‘为何短推理链更准确’的理论支持,仅基于实验现象设计策略,可能限制其在不同任务上的适用性。
Experiment
实验主要围绕三个领先的推理 LLMs(LN-Super-49B, R1-32B, QwQ-32B)在三个数学推理基准数据集(AIME 2024, AIME 2025, HMMT February 2025)上展开,具体设置如下:
- 初步观察:对每个问题生成 20 个推理链,发现最短推理链比最长推理链准确率高出高达 34.5%,比随机选择的推理链高出 18.8%,且 token 数量减少 50%-67%。
- 推理方法对比:将 short-m@k 与标准多数投票(majority@k)在样本量、计算量和推理时间三个维度上对比。结果显示,short-1@k 在低计算预算下优于 majority@k,减少高达 40% 的思考 token 消耗,同时性能相当或更优;short-3@k 在所有计算预算下均优于 majority@k,且推理时间减少高达 33%。
- 微调实验:在 S1 数据集的短、长、随机推理链变体上微调 Qwen-2.5-32B 模型,发现 S1-short 模型性能提升 2.8%,思考 token 减少 5.8%,而 S1-long 模型性能无显著提升。
实验设计评价:实验设置较为全面,涵盖了多个模型和数据集,并从多个维度(准确性、计算量、时间)评估方法效果。然而,数据集仅限于数学推理,可能无法泛化到其他推理任务。此外,微调实验仅在单一模型和数据集上进行,缺乏多样性支持结论的普适性。结果与预期一致,较短推理链确实在效率和性能上具有优势,但缺乏对现象背后原因的深入分析。
批判性思考:实验结果看似令人信服,但作者未充分探讨为何较短推理链更准确,可能是模型在长推理中引入了噪声或错误假设。此外,实验未考虑不同难度问题的细化影响,可能掩盖了某些特定场景下长推理链的优势。
Further Thoughts
本文提出的‘短推理链更优’的观点让我联想到人类认知中的‘过度思考’现象,是否 LLMs 在长推理链中也会陷入类似困境,累积错误假设或无关信息?这一问题值得进一步探索,或许可以通过分析推理链中 token 的语义相关性或错误传播路径来揭示原因。此外,short-m@k 方法的提前终止策略可能适用于其他自回归生成任务,如文本生成或代码生成,特别是在实时应用场景中对效率要求较高的情况下。另一个有趣的方向是结合自适应计算(adaptive computation)理念,根据问题难度动态调整推理链长度,而非固定 m 值,这可能进一步提升方法的灵活性和性能。最后,本文的效率优化思路也让我思考在边缘设备或资源受限环境中部署 LLMs 的可能性,若能结合参数高效微调(如 LoRA)与推理优化,或许能显著降低推理成本,推动 LLMs 的普及应用。