State Space Models are Strong Text Rerankers

本文通过全面benchmark比较状态空间模型如Mamba与Transformer在文本重排序任务中的性能和效率，发现Mamba模型可实现类似性能但效率较低，并强调了未来优化方向。

State Space Model, Transformer, Text Reranking, Efficiency, Long Context, Pre-training

Zhichao Xu, Jinghua Yan, Ashim Gupta, Vivek Srikumar

University of Utah

Generated by grok-3-mini-latest

Background Problem

Transformer 架构在自然语言处理 (NLP) 和信息检索 (IR) 领域占据主导地位，但其在推理时存在效率问题，且在处理长上下文时面临挑战，例如时间复杂度为 O(L) 和空间复杂度为 O(LD)，这使得其不如循环神经网络 (RNN) 高效。最近，人们对替代架构产生了兴趣，其中状态空间模型 (SSMs) 如 Mamba 展示了潜力，因为它们可以将上下文压缩到一个较小的状态中，实现 O(1) 时间复杂度和 O(ND) 空间复杂度。然而，SSMs 在文本重排序任务中的有效性——这一任务需要细粒度的查询-文档交互和长上下文理解——尚未得到充分探索。本文从性能和效率角度出发，benchmark SSMs 与 Transformer 模型，旨在解决 SSMs 是否能作为 Transformer 的替代方案，并探讨其在 IR 应用中的潜力。

Method

核心思想: 本文的核心是比较状态空间模型 (SSMs) 架构，特别是 Mamba-1 和 Mamba-2，与 Transformer 架构在文本重排序任务中的性能和效率。SSMs 通过将输入序列映射到一个隐状态中来建模序列数据，具体来说，SSMs 定义了一个连续的序列到序列转换： $h'(t) = A h(t) + B x(t) \quad y(t) = C h(t)$ ，然后通过离散化得到： $h_t = ar{A} h_{t-1} + ar{B} x_t \quad y_t = C h_t$ ，其中参数 (Δ, A, B, C) 可以是输入相关的，以提高模型的表达能力，如 Mamba-1 和 Mamba-2 所做。Mamba-2 进一步将 A 矩阵限制为标量乘单位矩阵，并引入 SSM 头维度 P，以提高效率。
如何实现: 作者遵循现有的训练方法，训练重排序模型，包括不同架构、规模和预训练目标。重排序模型通过将查询和文档拼接作为输入，预测一个相关性分数，使用 softmax 损失函数优化： $- rac{1}{|\mathcal{S}|} \sum_{(q_i, d_i^+) otin \mathcal{S}} rac{ ext{log} rac{ ext{exp} f_ heta(q_i, d_i^+)}{ ext{exp} f_ heta(q_i, d_i^+) + ext{sum}_{j otin ext{D}_i^-} ext{exp} f_ heta(q_i, d_i^-)} }$ 。对于 autoregressive 模型，如 Mamba，使用模板 ‘document: {d} ; query: {q} ; [EOS]‘，并在 [EOS] 标记上应用线性层。对于 encoder-only 模型，使用 ‘[CLS] ; query: {q} ; document: {d}’ 模板。
主要步骤: 包括选择预训练模型 (如 BERT、RoBERTa、Mamba 等)，微调模型以适应重排序任务，使用硬负样本采样，并评估不同设置下的性能。

Experiment

数据集和评估指标: 作者使用 MS MARCO 数据集进行通道重排序和文档重排序实验，MS MARCO 包含 524K 个通道重排序训练实例和 320K 个文档重排序训练实例。使用 BGE-large-en-v1.5 作为第一阶段检索器，采样硬负样本 (通道重排序采样 15 个，文档重排序采样 7 个)。评估指标包括 MRR@10 和 NDCG@10，对于域外评估，使用 BEIR 数据集的 13 个测试集，报告 NDCG@10。实验设置旨在平衡性能和硬件资源，采用统一微调方法。
实验设计原因: 实验设计选择多种预训练模型 (Transformer 和 SSMs) 以比较不同架构、规模和预训练目标的影响，这是因为 Transformer 模型在预训练数据量和目标上存在差异，SSMs 的优势在于理论复杂度，但实际效率需验证。作者使用 Flash Attention 等优化技术，并避免使用参数高效微调如 LoRA，以突出架构差异。
结果分析: 在通道重排序中，Mamba 模型性能与同规模 Transformer 相当，例如 Mamba-2-370M 在 MRR@10 和 NDCG@10 上接近 BERT-large；但在训练和推理效率上，Mamba 模型低于使用 Flash Attention 的 Transformer。Mamba-2 优于 Mamba-1，在性能和效率上均有改善。文档重排序结果类似，Mamba 模型在长上下文处理上竞争性强，但内存效率问题导致部分模型 OOM。结果符合预期，证明 SSMs 在文本重排序中的潜力，但效率需进一步优化。

Further Thoughts

本文的benchmark结果提示SSMs在IR任务中的潜力值得进一步探索，例如在文本检索中的应用，可能通过结合注意力机制的混合模型来提升性能；同时，SSMs的硬件优化问题，如减少标量提取操作的开销，能够借鉴Transformer的I/O优化技术；此外，与其他领域如图像或音频处理的SSMs工作相结合，可能开发出更通用的序列模型架构。