Attention Retrieves, MLP Memorizes: Disentangling Trainable Components in the Transformer

本文通过冻结Transformer组件并提出MixiT模型，揭示了自注意力机制在检索和语言建模中的输入依赖性必要性，以及MLP层在记忆中的主导作用，强调了架构异质性对任务解决的重要性。

Transformer, Representation Learning, Reasoning, Classification, Multimodality

Yihe Dong, Lorenzo Noci, Mikhail Khodak, Mufan Li

Princeton University, ETH Zurich

Generated by grok-3

Background Problem

Transformer架构是现代大型语言模型（LLMs）成功的关键，其自注意力机制被认为是长距离信息聚合和涌现能力（如算法推理和上下文学习）的核心。然而，我们对Transformer内部哪些自由度对这些能力至关重要仍缺乏精确理解。本文旨在探究自注意力机制和MLP层在不同任务中的具体作用，解决的问题是：哪些组件对特定任务（如检索、记忆、推理）是必需的，哪些可以简化或去除而不影响性能？

Method

本文通过冻结Transformer架构的不同部分，分离自注意力机制和MLP层的贡献，提出了以下三种简化模型：

Frozen-QK：冻结查询（Query）和键（Key）的权重矩阵，仅允许值（Value）权重矩阵可训练，保留传统注意力结构但限制其输入依赖性调整。
Frozen-MLP：冻结MLP层的权重矩阵，限制其在记忆和非线性处理中的作用。
MixiT（Mixing Transformer）：一种新颖模型，将注意力子层替换为固定、随机的混合矩阵，初始化后不再调整，消除输入依赖性计算，学习仅发生在嵌入层、MLP层和残差分支中。核心思想是通过对比这些模型与完全可训练的Transformer在多种任务上的表现，分析自注意力机制是否需要输入依赖性，以及MLP层在记忆中的作用。理论上，MixiT的随机注意力矩阵设计遵循注意力整形原则，确保信号传播稳定性，并通过协方差SDE证明其前向传播在深度和宽度扩展时的稳定性。然而，这种理论稳定性在实际任务中的意义未被充分验证。

Experiment

实验覆盖了数学推理（如十进制加法、模加法）、记忆、检索（Needle in a Haystack）、括号平衡、情感分类（Yelp数据集）和语言建模（Wikitext-103和Fineweb-edu数据集）等多种任务。实验设置通过网格搜索优化超参数，使用基于Llama的解码器Transformer模型，规模较小（层数和宽度有限），在1-4个H100 GPU上训练。

结果：MixiT在算法任务和情感分类上表现与标准Transformer相当，甚至有时优于后者，表明对于许多任务，输入无关的注意力混合已足够。但在检索任务中，MixiT表现较差，尤其在序列长度增加时（mmax≥20），而Frozen-QK和标准模型表现较好，归因于MixiT无法形成induction heads。在语言建模中，MixiT的困惑度显著高于标准模型（例如Wikitext上为3.73 vs 2.78），而Frozen-QK接近标准模型（3.07 vs 2.78），表明即使查询和键固定，模型仍能形成复杂电路。在记忆任务中，Frozen-MLP的存储容量大幅下降（1.13 bits/parameter vs 标准模型的2.98），而MixiT和Frozen-QK接近（约2.2 bits/parameter），表明MLP层对记忆至关重要。
评价：实验设计较为全面，任务选择覆盖了多种能力，但任务难度和模型规模较小，可能无法完全反映大模型场景下的表现。MixiT在检索和语言建模上的失败符合预期，但其在算法任务上的成功提示自注意力的输入依赖性并非总是必要。实验结果与论文假设基本一致，但未探讨更大规模或更复杂任务下的表现，限制了结论的泛化性。

Further Thoughts

本文的研究为Transformer架构设计提供了有趣的视角，尤其是在组件异质性和任务分离方面。MixiT模型的成功表明，在某些任务中，自注意力的复杂计算可能被过度强调，简单的随机混合可能已足够，这对高效Transformer设计（如减少KV缓存需求）有潜在启示。然而，我认为论文未充分探讨MixiT在更大规模模型或更复杂任务（如多轮对话或复杂推理）中的表现，这可能是其局限性所在。此外，Frozen-QK模型在语言建模中的表现接近标准Transformer，提示我们可能可以通过部分冻结参数来降低训练成本，同时保留关键能力，这与近年来参数高效微调（如Low-Rank Adaptation）的研究方向有潜在联系。另一个值得思考的方向是，是否可以通过动态调整冻结和可训练组件的比例（例如逐步解冻），在效率和性能之间找到更好的平衡点，这可能对资源受限环境下的模型部署有重要意义。