Skip to content
Go back 2504.18574 arXiv logo

Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism

Published:  at  11:15 PM
87.26 🤔

本文通过提出Gather-and-Aggregate (G&A)机制,揭示了Transformer和SSM模型在上下文检索能力上的性能差距主要源于少数关键头部的实现差异,并通过混合模型实验验证了注意力机制在改进SSM检索能力上的潜力。

Transformer, State Space Model, Reasoning, Representation Learning, Efficiency, In-Context Learning

Aviv Bick, Eric Xing, Albert Gu

Carnegie Mellon University, MBZUAI, Cartesia.ai

Generated by grok-3

Background Problem

近年来,Transformer模型在自然语言处理中取得了显著成功,但其对序列长度的二次方计算复杂度限制了其在长序列任务上的应用。状态空间模型(SSMs)作为一种高效的循环替代方案,以线性复杂度和固定状态大小的优势受到关注。然而,SSMs在上下文检索(in-context retrieval)等算法任务上的能力较弱,导致其与Transformer在性能上存在差距。本文从这一问题出发,试图揭示Transformer和SSM在上下文检索能力上的差异根源,并探索这一差异是否集中于模型的少数关键组件,而非整体架构。关键问题在于:性能差距是否可以通过分析和改进少数头部(heads)的算法能力来缩小?

Method

本文提出了一种统一的上下文检索框架——Gather-and-Aggregate (G&A)机制,用于解释Transformer和SSM模型在检索任务上的表现差异。具体方法如下:

Experiment

实验设计围绕Transformer(如Llama-3.1-8B)、SSM(如Llamba-8B、Falcon-Mamba-7B)和混合模型(如Zamba2-7B)展开,数据集包括MMLU、GSM8K、BBH及自定义的知识任务和KV-Retrieval任务。实验设置包括:

Further Thoughts

本文提出的G&A机制为理解Transformer和SSM在检索能力上的差异提供了一个有趣的视角,但其研究仍有一些值得深入探讨的方向。例如,G&A机制是否可能只是更广泛的上下文学习能力的一个子集?是否可以通过改进SSM的隐藏状态设计(如引入动态记忆机制)来增强其G&A实现能力,而无需依赖混合模型?此外,本文的混合模型实验虽然展示了注意力层的改进效果,但未探讨最优的注意力与SSM层比例或放置策略,这可能与近期一些关于高效架构设计的研究(如EfficientNet的复合缩放方法)相关联,值得进一步结合。此外,MMLU等基准测试对检索能力的过度依赖可能掩盖了模型在其他知识任务上的真实能力,未来研究可以设计更平衡的评估框架,以全面衡量模型的语言建模能力。这些思考不仅有助于深化对G&A机制的理解,也可能为设计更高效的语言模型架构提供启发。



Previous Post
Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL
Next Post
Deformable Beta Splatting