Skip to content
Go back 2506.01115 arXiv logo

Attention Retrieves, MLP Memorizes: Disentangling Trainable Components in the Transformer

Published:  at  11:59 AM
93.14 🤔

本文通过冻结Transformer组件并提出MixiT模型,揭示了自注意力机制在检索和语言建模中的输入依赖性必要性,以及MLP层在记忆中的主导作用,强调了架构异质性对任务解决的重要性。

Transformer, Representation Learning, Reasoning, Classification, Multimodality

Yihe Dong, Lorenzo Noci, Mikhail Khodak, Mufan Li

Princeton University, ETH Zurich

Generated by grok-3

Background Problem

Transformer架构是现代大型语言模型(LLMs)成功的关键,其自注意力机制被认为是长距离信息聚合和涌现能力(如算法推理和上下文学习)的核心。然而,我们对Transformer内部哪些自由度对这些能力至关重要仍缺乏精确理解。本文旨在探究自注意力机制和MLP层在不同任务中的具体作用,解决的问题是:哪些组件对特定任务(如检索、记忆、推理)是必需的,哪些可以简化或去除而不影响性能?

Method

本文通过冻结Transformer架构的不同部分,分离自注意力机制和MLP层的贡献,提出了以下三种简化模型:

Experiment

实验覆盖了数学推理(如十进制加法、模加法)、记忆、检索(Needle in a Haystack)、括号平衡、情感分类(Yelp数据集)和语言建模(Wikitext-103和Fineweb-edu数据集)等多种任务。实验设置通过网格搜索优化超参数,使用基于Llama的解码器Transformer模型,规模较小(层数和宽度有限),在1-4个H100 GPU上训练。

Further Thoughts

本文的研究为Transformer架构设计提供了有趣的视角,尤其是在组件异质性和任务分离方面。MixiT模型的成功表明,在某些任务中,自注意力的复杂计算可能被过度强调,简单的随机混合可能已足够,这对高效Transformer设计(如减少KV缓存需求)有潜在启示。然而,我认为论文未充分探讨MixiT在更大规模模型或更复杂任务(如多轮对话或复杂推理)中的表现,这可能是其局限性所在。此外,Frozen-QK模型在语言建模中的表现接近标准Transformer,提示我们可能可以通过部分冻结参数来降低训练成本,同时保留关键能力,这与近年来参数高效微调(如Low-Rank Adaptation)的研究方向有潜在联系。另一个值得思考的方向是,是否可以通过动态调整冻结和可训练组件的比例(例如逐步解冻),在效率和性能之间找到更好的平衡点,这可能对资源受限环境下的模型部署有重要意义。



Previous Post
Beyond Output Matching: Bidirectional Alignment for Enhanced In-Context Learning
Next Post
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation