How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities

本文通过对比实验揭示，尽管长序列模型（如Mamba2）理论上支持无限长上下文，但在实际长上下文任务中与Transformer模型一样面临显著局限，尤其在信息位置和数据格式变化时表现不佳，亟需进一步研究其原因。

Long Context, State Space Model, Transformer, Reasoning, Representation Learning

Jerry Huang

Mila - Quebec AI Institute, Université de Montréal

Generated by grok-3

Background Problem

随着AI系统工程和模型设计的进步，大型语言模型（LLMs）被广泛应用于各种场景，但Transformer架构由于其固定长度位置嵌入的限制，在处理长上下文时面临挑战。近年来，状态空间模型（SSMs）和线性循环神经网络等长序列模型被提出，理论上能够处理无限长上下文，同时保持训练并行化的优势。然而，这些模型在实际长上下文任务中的表现是否符合理论预期仍存疑问，现有研究表明它们在长上下文信息保留和推理能力上可能存在显著局限性。因此，本文旨在通过对比研究，探讨长序列模型与Transformer模型在长上下文能力上的真实表现，并分析其局限性的原因。

Method

本文主要通过对比实验分析长序列模型（如Mamba2）、基于注意力的Transformer模型以及两者的混合模型在长上下文任务上的表现，核心方法包括：

模型选择与控制变量：选取参数规模一致（约27亿至30亿参数）的多种模型，包括Mamba2、Transformer++、混合模型Mamba2Attn以及其他基线模型（如RWKV、Recurrent-Gemma），并确保训练数据一致，以减少外部变量干扰。
任务设计：使用RULER合成基准测试长上下文信息保留能力，并设计细粒度的‘针在大海里’（needle-in-a-haystack）任务，通过调整上下文长度、信息位置（开头、中间、结尾）以及数据格式（数字、UUID、重复句子等）来评估模型的表现。
评估指标：以准确率（基于预测token的精确匹配）作为主要指标，观察模型在训练上下文长度内外的表现，以及对信息位置和数据格式的敏感性。

批判性思考：虽然方法设计在控制变量和任务多样性上较为合理，但缺乏对模型内部机制（如隐藏状态压缩或注意力分布）的深入分析，导致对模型失败原因的解释较为表面化。此外，合成任务虽然便于控制变量，但可能无法完全反映真实世界任务的复杂性，限制了结论的外推性。

Experiment

实验主要基于RULER合成基准和‘针在大海里’任务，具体设置和结果如下：

数据集与任务：使用RULER测试长上下文信息保留能力，并通过调整信息位置和数据格式（如数字、UUID、重复句子）设计细粒度任务，上下文长度从1K到16K不等，覆盖训练长度内外。
实验设置：对比多种模型（Mamba2、Transformer++、混合模型等），参数规模控制在27亿至30亿，确保训练数据一致。任务设计旨在揭示模型在不同上下文长度和信息位置下的表现差异。
结果分析：
- 在RULER任务中，所有模型在超出训练上下文长度时性能急剧下降，长序列模型（如Mamba2）虽略优于纯注意力模型，但仍表现不佳（例如Mamba2在16K长度下准确率仅0.1%）。
- 在‘针在大海里’任务中，所有模型均表现出‘迷失中间’（lost-in-the-middle）问题，即对位于上下文中间的信息召回能力较差，尤其在超出训练长度时表现更不稳定。
- 数据格式对模型表现影响显著，例如Mamba2在重复句子格式下表现较好，但在文章格式下完全失败，表明模型外推能力不一致。
评价与批判：实验设置较为全面，覆盖了多种上下文长度和任务场景，揭示了长序列模型的局限性。然而，结果与预期（长序列模型应显著优于Transformer）不符，且实验未深入探讨为何长序列模型未展现理论优势，例如是否与隐藏状态压缩或训练数据分布有关。此外，模型规模较小（未测试更大规模模型）可能限制了结论的普适性，作者对此有所说明但未提供补充实验。

Further Thoughts

本文的研究引发了对长上下文能力本质的思考：是否模型架构（如状态空间模型或Transformer）并非决定性因素，而训练数据的分布和优化策略（如如何在训练中模拟长上下文依赖）可能更为关键。结合近期关于上下文学习（In-Context Learning）的研究，或许可以通过设计更具长依赖特征的训练数据或引入分层记忆机制来缓解‘迷失中间’问题。此外，本文未探讨的更大规模模型可能因参数量增加而展现不同的长上下文行为，值得未来研究验证。同时，长上下文能力可能与多模态任务（如文本与图像结合的长序列处理）相关，探索多模态场景下的长序列模型表现或将成为一个有趣的交叉领域方向。