When More is Less: Understanding Chain-of-Thought Length in LLMs

本文通过理论分析、控制实验和现实观察，揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系，提出最优长度随任务难度增加和模型能力增强而变化的缩放规律，并展示了基于最优长度的训练和推理策略的显著性能提升。

Large Language Model, Reasoning, Reinforcement Learning, Efficiency, Scaling Laws

Yuyang Wu, Yifei Wang, Ziyu Ye, Tianqi Du, Stefanie Jegelka, Yisen Wang

Peking University, MIT, University of Chicago, TUM

Generated by grok-3

Background Problem

大型语言模型（LLMs）通过Chain-of-Thought (CoT) 推理技术分解复杂问题，取得了显著的推理能力。然而，普遍认为更长的CoT总是带来更好的性能，这一假设受到了一些近期观察的挑战，特别是在某些情况下简洁的CoT也能有效解决问题。本文针对这一矛盾，研究CoT长度与推理性能之间的关系，揭示是否存在一个最优CoT长度，并探讨其与任务难度和模型能力的关系，旨在解决过度思考（overthinking）和不足思考（underthinking）对性能的影响问题。

Method

本文采用多层次方法研究CoT长度对推理性能的影响：

核心思想：CoT长度与性能呈倒U型关系，存在一个最优长度，过短会导致分解不足，过长则累积错误；更强的模型倾向于更短的CoT，体现简洁性偏见（Simplicity Bias）。
理论分析：构建了一个简化的理论模型，将CoT过程建模为一系列子问题和子答案的生成，定义了子问题和子答案的错误率（与任务难度T和模型能力M相关），推导出性能A(N)随长度N的变化公式，证明最优长度N*的存在及其与T和M的缩放关系（见公式 $N^*(M,T) = \frac{TZ}{M(Z+1)}$ ）。
控制实验：设计合成算术任务数据集，控制任务难度（操作符总数T）和CoT长度（步数N），使用不同层数的GPT-2模型研究模型能力对最优长度的影响。
现实观察：基于Qwen2.5系列模型在MATH数据集上的实验，分析最优CoT长度与模型大小和任务难度的关系，并通过RL训练（使用GRPO算法）观察简洁性偏见的出现。
应用方法：提出基于最优长度的训练数据设计和推理时长度过滤投票（Length-Filtered Vote），通过熵值筛选合适长度的CoT路径以提升性能。 批判性思考：理论模型假设了线性错误率和均匀任务分解，可能过于简化真实推理过程；合成任务虽然控制了变量，但缺乏复杂推理任务的多样性，可能限制结论的适用性。

Experiment

实验设计分为三部分：

现实世界观察：使用Qwen2.5系列模型在MATH Level 5数据集上测试，生成不同长度的CoT解决方案，发现最优CoT长度随模型大小增加而减少（例如，1.5B模型最优长度为14步，72B为4步），随任务难度增加而增加（显著正相关，p=1e-8）；最优长度与最长CoT的性能差距显著（72B模型差距达40%）。此外，在LeetCode-2K数据集上使用GRPO进行RL训练，发现训练过程中CoT长度逐渐缩短，体现简洁性偏见。
控制实验：在合成算术任务中（仅涉及加法操作，难度由操作符总数T定义），使用不同层数的GPT-2模型验证倒U型性能曲线，确认最优长度随任务难度增加而右移，随模型能力增强而减少；RL训练（使用PPO算法）也显示模型逐渐趋向最优长度。
应用实验：在合成任务上，训练数据使用最优长度CoT的模型显著优于混合长度训练的模型（6层模型甚至超越9层混合训练模型）；在GPQA数据集上，提出的长度过滤投票方法（基于熵值筛选CoT长度）持续优于标准多数投票，且随采样数量增加性能下降较少。 批判性思考：实验设置较为全面，但合成任务过于简单，可能无法完全反映真实推理任务的复杂性；现实世界实验的样本量（例如MATH数据集仅选30-100个问题）较小，统计可靠性存疑；应用实验的规模有限，泛化性需要进一步验证。

Further Thoughts

本文提出的简洁性偏见（Simplicity Bias）与模型能力提升后倾向于更短CoT的观察，与机器学习中更广泛的奥卡姆剃刀原则和神经网络偏向简单函数的特性有深刻联系，值得进一步探索是否可以通过设计特定的训练目标或数据分布来增强这种偏见，以提升模型效率。此外，最优CoT长度的缩放规律可能与算法对齐（Algorithmic Alignment）概念相关，即模型性能在问题结构与计算结构对齐时达到最优，这提示我们未来在设计LLM架构时，可以考虑自适应计算深度（如循环Transformer）来动态调整每步推理的复杂度，以更好地匹配任务需求。另一个有趣的方向是，是否可以通过跨领域任务（如从数学推理到代码生成）验证最优CoT长度的普适性，以及是否可以通过元学习（Meta-Learning）让模型自适应地学习最优CoT长度策略，而无需人工干预或大规模实验。