Skip to content
Go back 2505.00315 arXiv logo

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

Published:  at  04:33 PM
69.21 🤔

本文提出Mixture of Sparse Attention (MoSA)方法,通过专家选择路由实现基于内容的稀疏注意力,显著提高了Transformer模型在相同计算预算下的语言建模性能,并优化了资源使用。

Sparse Attention, Transformer, Efficiency, Large Language Model, Pre-training

Piotr Piękos, Róbert Csordás, Jürgen Schmidhuber

KAUST, Stanford University

Generated by grok-3-mini-latest

Background Problem

现代Transformer架构中自注意力机制的计算成本过高,导致序列长度增加时计算和内存复杂度呈二次方增长。尽管有许多研究尝试了亚二次方注意力方法(如状态空间模型和线性注意力),但它们在实际性能上仍逊色于全自注意力。本文假设动态的、基于内容的稀疏性可以带来更有效的注意力机制,从而解决高效处理长序列时性能下降的关键问题,同时减少KV缓存内存占用。

Method

Experiment

Further Thoughts

MoSA的专家选择路由机制可能适用于其他模态,如视觉Transformer中动态选择关键特征点以提高效率;与状态空间模型结合可能进一步优化长序列建模;未来可以探索在推理阶段的自适应路由减少KV缓存,或与其他稀疏方法(如Hash Attention)结合以实现协同效应;此外,解决MoSA在短序列下游任务中的性能下降问题,可能通过指令微调或序列长度自适应策略来缓解,从而扩展其在多领域应用中的潜力。



Previous Post
RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
Next Post
Training Plug-n-Play Knowledge Modules with Deep Context Distillation