Skip to content
Go back 2502.07266 arXiv logo

When More is Less: Understanding Chain-of-Thought Length in LLMs

Published:  at  11:22 AM
85.45 🤔

本文通过理论分析、控制实验和现实观察,揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系,提出最优长度随任务难度增加和模型能力增强而变化的缩放规律,并展示了基于最优长度的训练和推理策略的显著性能提升。

Large Language Model, Reasoning, Reinforcement Learning, Efficiency, Scaling Laws

Yuyang Wu, Yifei Wang, Ziyu Ye, Tianqi Du, Stefanie Jegelka, Yisen Wang

Peking University, MIT, University of Chicago, TUM

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过Chain-of-Thought (CoT) 推理技术分解复杂问题,取得了显著的推理能力。然而,普遍认为更长的CoT总是带来更好的性能,这一假设受到了一些近期观察的挑战,特别是在某些情况下简洁的CoT也能有效解决问题。本文针对这一矛盾,研究CoT长度与推理性能之间的关系,揭示是否存在一个最优CoT长度,并探讨其与任务难度和模型能力的关系,旨在解决过度思考(overthinking)和不足思考(underthinking)对性能的影响问题。

Method

本文采用多层次方法研究CoT长度对推理性能的影响:

Experiment

实验设计分为三部分:

Further Thoughts

本文提出的简洁性偏见(Simplicity Bias)与模型能力提升后倾向于更短CoT的观察,与机器学习中更广泛的奥卡姆剃刀原则和神经网络偏向简单函数的特性有深刻联系,值得进一步探索是否可以通过设计特定的训练目标或数据分布来增强这种偏见,以提升模型效率。此外,最优CoT长度的缩放规律可能与算法对齐(Algorithmic Alignment)概念相关,即模型性能在问题结构与计算结构对齐时达到最优,这提示我们未来在设计LLM架构时,可以考虑自适应计算深度(如循环Transformer)来动态调整每步推理的复杂度,以更好地匹配任务需求。另一个有趣的方向是,是否可以通过跨领域任务(如从数学推理到代码生成)验证最优CoT长度的普适性,以及是否可以通过元学习(Meta-Learning)让模型自适应地学习最优CoT长度策略,而无需人工干预或大规模实验。



Previous Post
Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
Next Post
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing