You Do Not Fully Utilize Transformer's Representation Capacity

本文提出Layer-Integrated Memory (LIMe)，通过学习跨层路由机制整合之前所有层的Key-Value表示，显著缓解Transformer的表示崩塌问题，并在语言建模、推理任务和深层网络中实现更快收敛和更高准确率。

Transformer, Representation Learning, Reasoning, Efficiency, Multimodal Systems

Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov

T-Tech, Moscow Institute of Physics and Technology, HSE University

Generated by grok-3

Background Problem

Transformer模型由于其深层堆叠结构和单一残差流设计，在处理长序列或复杂任务时容易出现表示崩塌（representation collapse）问题，即不同token或特征在深层中变得难以区分，导致模型性能下降，尤其是在需要长距离依赖或多步推理的任务中。本文提出了一种轻量级扩展方法，旨在通过跨层信息整合来缓解这一问题，并提升模型的表示能力和优化效率。

Method

本文提出了Layer-Integrated Memory (LIMe)，一种轻量级机制，通过增强解码器Transformer的跨层信息流动来提升表示能力。其核心思想和实现步骤如下：

核心思想：LIMe允许每个注意力头在每一层动态检索并融合之前所有层的Key-Value表示，而非仅依赖当前层的残差流，从而扩展模型的表示容量，缓解表示崩塌问题。
实现步骤：
1. Key-Value缓冲：在每一层计算并存储Key和Value张量到预分配的缓冲区中，无需额外内存，因为标准Transformer已为训练和推理分配了这些缓冲区。
2. 跨层路由：引入可学习的路由张量R，对于每一层和每个注意力头，动态加权混合之前所有层的Key-Value表示，形成新的Key-Value混合表示。
3. 注意力计算：基于当前层的Query与路由后的Key-Value混合表示进行标准注意力计算。
关键优势：LIMe通过学习到的每层每头路由权重实现选择性信息检索和遗忘，与固定跳跃连接或简单平均不同；计算开销仅与序列长度线性相关，且与高效注意力实现（如FlashAttention）兼容。

批判性思考：虽然LIMe的设计在理论上合理，但其路由机制引入了额外的可学习参数（路由权重），这可能导致性能提升部分来源于参数量的增加，而非纯粹的结构创新。此外，作者声称计算和内存开销‘可忽略’，但未充分讨论在分布式训练或推理场景下跨层通信的潜在成本，尤其是在大规模模型中。

Experiment

本文通过多方面实验验证了LIMe的有效性，具体如下：

语言建模：在FineWeb Edu数据集上训练1B参数模型，LIMe在FLOPs下收敛速度提升15.3%（使用GQA时为8.9%），困惑度降低1.15%（GQA时为0.91%），在LM Eval Harness基准测试中平均准确率提升至51.74%，优于LLaMa（48.20%）和Hyper Connections（49.93%）。
表示崩塌测量：通过矩阵熵（Renyi entropy）和token可分离性分析，LIMe在Value表示上表现出更高的熵和更好的线性可分离性，表明其有效缓解了表示崩塌，而在隐藏状态上的差异不显著，符合其设计目标。
合成任务：在ProsQA任务（需要多路径推理）上，LIMe准确率提升至77.8%，比LLaMa（69.4%）高8.4%；在算术表达式任务（AET）中，LIMe在6个操作数难度下准确率达71.6%，远超LLaMa的41.3%，显示出在多步计算中的优势。
深层网络性能：在32、64、128层配置下，LIMe持续优于LLaMa，64层LIMe甚至超越128层LLaMa，表明其在深度扩展上的潜力。
路由权重分析：揭示了LIMe对早期层和邻近层特征的系统性重用，解释了其缓解表示崩塌的机制。

批判性思考：实验设置较为全面，涵盖了语言建模、合成任务和深层网络等多种场景，但对比基线（如LLaMa）可能未完全控制参数量或计算资源，LIMe的性能提升可能部分归因于额外参数。此外，合成任务的结果虽然显著，但其与真实世界任务的相关性有限，需进一步验证。计算开销的‘可忽略’结论也缺乏在大规模分布式环境下的实际测试支持。

Further Thoughts

LIMe的跨层路由机制为Transformer架构的深度扩展提供了新的思路，特别是在需要长距离依赖和多步推理的任务中，其分布式表示存储方式可能与人类认知中的分层记忆机制有一定相似性，值得进一步探索是否能结合认知科学理论来优化路由设计。此外，LIMe与Mixture-of-Depths等动态计算分配方法的结合可能在计算效率和性能之间找到更好的平衡点，尤其是在资源受限的边缘设备上。另一个值得思考的方向是，LIMe的路由权重是否会因任务类型或数据分布的不同而表现出显著差异，若能针对特定任务（如多模态推理）设计自适应路由策略，可能进一步提升其应用价值。最后，作者提到的宽度-深度权衡问题或许可以通过LIMe的机制结合Scaling Laws理论进行系统性研究，为下一代基础模型的设计提供理论支持。