Skip to content
Go back 2505.00033 arXiv logo

From Attention to Atoms: Spectral Dictionary Learning for Fast, Interpretable Language Models

Published:  at  04:33 PM
75.71 🤔

本文提出光谱字典生成模型(SDGM),通过学习全局傅里叶字典和 token 混合系数替换自注意力机制,实现 O(KL) 复杂度的高效语言建模,并在基准数据集上取得竞争性 perplexity 和显著的资源节省。

Spectral Modeling, Language Modeling, Efficiency, Interpretability, Generative Modeling, Transformer Alternative

Andrew Kiruluta

UC Berkeley

Generated by grok-3-mini-latest

Background Problem

变压器架构的自注意力机制 revolutionized 序列建模,但其 O(L²) 的计算和内存复杂度在处理长序列(如整个文档或长代码序列)时变得不可接受,导致效率低下。为解决这一问题,本文提出了一种基于光谱字典学习的替代方法,旨在减少计算复杂度、保持竞争性性能并提升模型的可解释性。背景包括现有注意力近似方法(如稀疏注意力、内核方法和低秩投影),以及光谱方法的初步探索(如 FNet),但这些方法要么适应性有限,要么未充分优化语言建模任务。

Method

Experiment

Further Thoughts

这个方法可能启发其他领域,如时间序列预测或音频信号处理,因为光谱方法在这些领域已有应用;此外,学习的可解释性傅里叶原子可能有助于神经科学中理解脑波模式,或在 AI 安全中提升模型透明度;未来可以探索与注意力机制的混合架构,或将字典大小动态调整以优化容量-效率权衡,类似于稀疏编码在视觉任务中的扩展。



Previous Post
COSMOS: Predictable and Cost-Effective Adaptation of LLMs
Next Post
The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)