Skip to content
Go back 2505.06708 arXiv logo

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Published:  at  11:22 PM
87.55 🤔

本文通过在softmax注意力机制的SDPA输出后引入头特定sigmoid门控机制,显著提升了15B MoE和1.7B密集模型的性能、训练稳定性和长上下文泛化能力,同时消除了注意力沉积现象。

Large Language Model, Transformer, Reasoning, Efficiency, Long Context

Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin

Qwen Team, Alibaba Group, University of Edinburgh, Stanford University, MIT, Tsinghua University

Generated by grok-3

Background Problem

门控机制(Gating Mechanism)在神经网络中有着悠久的历史,从早期的LSTM和Highway Networks到最近的状态空间模型和注意力机制中均有应用。然而,现有研究很少系统性地探讨门控机制的具体作用及其对模型性能的影响,尤其是在标准softmax注意力机制中的应用。本文旨在解决这一问题,研究门控机制在注意力层中的作用,特别是在提升模型性能、训练稳定性和长上下文泛化能力方面的潜力,试图揭示门控机制为何有效以及如何最优地应用。

Method

本文提出了一种在标准softmax注意力机制中引入门控机制的方法,核心思想是通过在不同位置应用门控操作来增强模型的非线性和稀疏性。具体步骤如下:

Experiment

实验在15B参数的Mixture-of-Experts (MoE) 模型和1.7B参数的密集模型上进行,使用3.5万亿token的高质量数据集训练,上下文长度为4096。评估涵盖了多个基准测试(如Hellaswag、MMLU、GSM8k、C-eval)和语言建模困惑度(PPL)。

Further Thoughts

门控机制在注意力层中的应用为提升大型语言模型的效率和长上下文处理能力提供了新的思路,但其潜在局限性值得进一步探索。例如,稀疏门控可能在需要全局上下文的任务(如多模态推理或长篇文档理解)中导致关键信息丢失,未来研究可以结合自适应稀疏性调整机制,根据任务需求动态平衡稀疏性和信息保留。此外,门控机制对训练稳定性的改善提示其可能与模型的数值稳定性或梯度流动有深层联系,这与近期关于大规模激活和残差连接的研究(如Sun et al., 2024)相呼应,值得进一步结合理论分析和实验验证,探索门控机制在更广泛架构(如状态空间模型)中的作用。最后,注意力沉积的消除是否对所有长上下文任务均有益,仍需在更多真实场景(如对话系统或代码生成)中测试,以避免过度优化某一特定现象而忽视其他潜在问题。



Previous Post
ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy
Next Post
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs