Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

本文通过在softmax注意力机制的SDPA输出后引入头特定sigmoid门控机制，显著提升了15B MoE和1.7B密集模型的性能、训练稳定性和长上下文泛化能力，同时消除了注意力沉积现象。

Large Language Model, Transformer, Reasoning, Efficiency, Long Context

Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin

Qwen Team, Alibaba Group, University of Edinburgh, Stanford University, MIT, Tsinghua University

Generated by grok-3

Background Problem

门控机制（Gating Mechanism）在神经网络中有着悠久的历史，从早期的LSTM和Highway Networks到最近的状态空间模型和注意力机制中均有应用。然而，现有研究很少系统性地探讨门控机制的具体作用及其对模型性能的影响，尤其是在标准softmax注意力机制中的应用。本文旨在解决这一问题，研究门控机制在注意力层中的作用，特别是在提升模型性能、训练稳定性和长上下文泛化能力方面的潜力，试图揭示门控机制为何有效以及如何最优地应用。

Method

本文提出了一种在标准softmax注意力机制中引入门控机制的方法，核心思想是通过在不同位置应用门控操作来增强模型的非线性和稀疏性。具体步骤如下：

门控位置：在注意力层的五个关键位置（查询、键、值投影后，SDPA输出后，以及最终输出层后）测试门控效果，重点发现SDPA输出后（G1位置）的门控效果最佳。
门控形式：探索了多种门控变体，包括逐元素（Elementwise）与逐头（Headwise）、头特定（Head-Specific）与头共享（Head-Shared）、乘法（Multiplicative）与加法（Additive）形式，以及不同的激活函数（如sigmoid和SiLU）。
实现方式：门控机制通过公式 $Y' = Y /odots ext{sigmoid}(XW_ heta)$ 实现，其中 $Y$ 是待调制输入， $X$ 是用于计算门控分数的输入， $W_ heta$ 是可学习参数。
关键发现：SDPA输出后的头特定sigmoid门控引入了非线性，增强了低秩映射的表达能力；同时通过查询依赖的稀疏门控分数，过滤无关上下文信息，消除注意力沉积现象。 批判性思考：虽然方法设计较为全面，但对非线性和稀疏性贡献的分离不够清晰，缺乏严格的消融实验来证明各自的独立影响。此外，门控机制可能在某些任务中引入过度稀疏，导致信息丢失，这一潜在风险未被充分讨论。

Experiment

实验在15B参数的Mixture-of-Experts (MoE) 模型和1.7B参数的密集模型上进行，使用3.5万亿token的高质量数据集训练，上下文长度为4096。评估涵盖了多个基准测试（如Hellaswag、MMLU、GSM8k、C-eval）和语言建模困惑度（PPL）。

实验设置：对比了30多种门控变体，调整门控位置、粒度、形式及激活函数，同时通过增加头数或专家数作为参数扩展的基线对比。
结果：SDPA输出后的头特定sigmoid门控（G1位置）在PPL上降低了0.2以上，在MMLU等基准上提升了约2个百分点，优于其他位置和参数扩展基线；门控还显著提升了训练稳定性，减少了损失尖峰，支持更大的学习率和批量大小；此外，门控模型在长上下文扩展（如128k长度）上表现出更强的泛化能力，在RULER基准上比基线高出10个百分点以上。
合理性与局限：实验设置较为全面，涵盖了MoE和密集模型、多种超参数和上下文长度，试图验证门控的普适性。然而，实验结果的解释多基于现象观察，如注意力沉积的消除与长上下文性能提升之间的因果关系未被严格证明；对训练稳定性的改善归因于减少大规模激活，但补充实验中简单裁剪激活值未能稳定训练，表明可能存在其他未探索的因素；此外，实验任务主要集中在语言建模和通用知识测试上，缺乏对复杂推理或多模态任务的验证，可能限制结论的泛化性。

Further Thoughts

门控机制在注意力层中的应用为提升大型语言模型的效率和长上下文处理能力提供了新的思路，但其潜在局限性值得进一步探索。例如，稀疏门控可能在需要全局上下文的任务（如多模态推理或长篇文档理解）中导致关键信息丢失，未来研究可以结合自适应稀疏性调整机制，根据任务需求动态平衡稀疏性和信息保留。此外，门控机制对训练稳定性的改善提示其可能与模型的数值稳定性或梯度流动有深层联系，这与近期关于大规模激活和残差连接的研究（如Sun et al., 2024）相呼应，值得进一步结合理论分析和实验验证，探索门控机制在更广泛架构（如状态空间模型）中的作用。最后，注意力沉积的消除是否对所有长上下文任务均有益，仍需在更多真实场景（如对话系统或代码生成）中测试，以避免过度优化某一特定现象而忽视其他潜在问题。