Skip to content
Go back 2412.14354 arXiv logo

State Space Models are Strong Text Rerankers

Published:  at  04:26 PM
50.53 🤔

本文通过全面benchmark比较状态空间模型如Mamba与Transformer在文本重排序任务中的性能和效率,发现Mamba模型可实现类似性能但效率较低,并强调了未来优化方向。

State Space Model, Transformer, Text Reranking, Efficiency, Long Context, Pre-training

Zhichao Xu, Jinghua Yan, Ashim Gupta, Vivek Srikumar

University of Utah

Generated by grok-3-mini-latest

Background Problem

Transformer 架构在自然语言处理 (NLP) 和信息检索 (IR) 领域占据主导地位,但其在推理时存在效率问题,且在处理长上下文时面临挑战,例如时间复杂度为 O(L) 和空间复杂度为 O(LD),这使得其不如循环神经网络 (RNN) 高效。最近,人们对替代架构产生了兴趣,其中状态空间模型 (SSMs) 如 Mamba 展示了潜力,因为它们可以将上下文压缩到一个较小的状态中,实现 O(1) 时间复杂度和 O(ND) 空间复杂度。然而,SSMs 在文本重排序任务中的有效性——这一任务需要细粒度的查询-文档交互和长上下文理解——尚未得到充分探索。本文从性能和效率角度出发,benchmark SSMs 与 Transformer 模型,旨在解决 SSMs 是否能作为 Transformer 的替代方案,并探讨其在 IR 应用中的潜力。

Method

Experiment

Further Thoughts

本文的benchmark结果提示SSMs在IR任务中的潜力值得进一步探索,例如在文本检索中的应用,可能通过结合注意力机制的混合模型来提升性能;同时,SSMs的硬件优化问题,如减少标量提取操作的开销,能够借鉴Transformer的I/O优化技术;此外,与其他领域如图像或音频处理的SSMs工作相结合,可能开发出更通用的序列模型架构。



Previous Post
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
Next Post
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review