Do Language Models Use Their Depth Efficiently?

本文通过对Llama 3.1和Qwen 3模型的残差流分析和干预实验，发现大型语言模型未有效利用深度，后半部分层主要细化概率分布而非进行新计算，且处理深度与输入复杂性无关，提示当前架构和训练目标需改进。

Large Language Model, Transformer, Reasoning, Efficiency, Pre-training

Róbert Csordás, Christopher D. Manning, Christopher Potts

Stanford University

Generated by grok-3

Background Problem

大型语言模型（LLMs）的性能随着模型深度的增加而提升，但收益递减，引发了一个核心问题：这些模型是否有效利用了它们的深度？作者试图探究深层模型是否通过增加层数进行更复杂的特征组合和更高阶计算（理论上应提升推理、数学能力和泛化能力），还是仅仅将相同类型的计算分散到更多层中。这一研究背景源于对Transformer架构堆叠层数与计算能力之间关系的质疑，以及对模型是否真正实现计算深度与问题复杂性动态匹配的关注。

Method

本文采用了一系列分析方法来探究LLMs是否有效利用深度：

残差流贡献分析：通过测量每个层及其子层（注意力层和MLP层）对残差流的贡献（使用L2范数和余弦相似度），评估各层对整体计算的影响，发现后半部分层的贡献显著下降。
层跳跃干预：通过跳过特定层并观察对后续层计算和输出预测的影响，分析层间依赖性，结果显示后半部分层对未来token预测的影响较小，主要用于细化当前token的概率分布。
多跳任务分析：针对复杂数学和多跳推理任务，使用因果干预和积分梯度方法，检查模型是否在更复杂问题上使用更深层计算，但未发现处理深度随问题复杂性增加的证据。
线性映射实验：训练线性映射从浅层模型的残差流预测深层模型的残差流，发现相对深度相同的层映射效果最佳，表明深层模型只是将计算‘拉伸’到更多层，而非进行全新计算。
探索性分析：对比MoEUT模型与标准Transformer，发现MoEUT可能更有效地利用深度，尤其在不建模问题时。

批判性思考：虽然方法设计较为全面，但线性映射实验可能过于简化，未完全捕捉深层模型潜在的新计算能力；此外，多跳任务分析主要集中在数学领域，缺乏对其他任务类型的验证，可能限制结论的普适性。

Experiment

实验主要基于Llama 3.1 70B模型，并在Qwen 3系列模型上进行补充验证，使用GSM8K、MATH和MQuAKE等数据集，聚焦数学任务（因其对层干预最敏感）。

残差流贡献：发现前半部分层贡献较大，后半部分层贡献显著下降（图2），存在明显的阶段转变。
层跳跃干预：跳过后半部分层对未来token预测影响较小（图3b），通过Logitlens验证后半部分层主要用于细化概率分布（图4），而非计算可复用的子结果。
多跳任务分析：在MATH和MQuAKE数据集上，模型处理深度与问题难度或跳数无关（图7），积分梯度和残差擦除实验进一步确认后半部分层未用于更深计算（图6）。
线性映射：在Qwen 2.5 1.5B和14B模型间，映射误差显示深层模型只是拉伸了浅层计算（图8），未发现新计算模式。
MoEUT对比：初步发现MoEUT在DeepMind Math数据集上更有效利用深度，尤其在不建模问题时（图9）。

评价与批判：实验设置较为全面，数据集选择合理，聚焦数学任务符合直觉（因其需要组合计算）。然而，结果与预期不完全一致，尤其是在多跳任务中未发现深层计算证据，这可能表明模型未学会动态调整计算深度。线性映射实验虽创新，但可能低估了深层模型的复杂性。此外，实验主要集中于数学任务，缺乏对其他领域（如语言推理）的广泛验证，可能影响结论的泛化性。

Further Thoughts

本文揭示了大型语言模型在深度利用上的低效性，提示我们重新思考Transformer架构的局限性以及预训练目标对模型计算模式的影响。结合其他研究（如Chain of Thought方法通过输入输出空间实现组合计算），可以推测模型可能需要外部机制或新的架构设计（如MoEUT的共享层机制）来实现动态计算深度。此外，模型后半部分层主要用于概率分布细化，这与语言建模目标高度相关，但对于下游任务（如推理或问题解决）可能并非最优，是否可以通过调整训练目标（如减少对分布匹配的过度优化）或引入自适应计算机制来改进，仍是值得探索的方向。另一个有趣的联系是与信息瓶颈理论的结合，Skean等人的研究指出中间层存在信息瓶颈，这可能解释了为何后半部分层未进行更多信息整合，而是专注于细化输出，未来可以进一步研究残差宽度（dmodel）作为瓶颈对深度利用的影响。