Skip to content
Go back 2410.01651 arXiv logo

Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling

Published:  at  11:21 AM
85.79 🤔

本文提出Grouped Cross Attention (GCA)机制,通过可微分检索和动态上下文选择实现Transformer模型的长度泛化,在16M上下文长度下达到完美passkey检索准确率,同时显著降低计算和内存成本。

Transformer, Long Context, Efficiency, Representation Learning, Pre-training

Xiang Hu, Zhihao Teng, Jun Zhao, Wei Wu, Kewei Tu

Ant Group, ShanghaiTech University, Fudan University

Generated by grok-3

Background Problem

Transformer模型在自然语言处理任务中表现出色,但处理长上下文时面临两大挑战:长度泛化问题(即模型难以适应超出预训练长度的输入)和自注意力机制的二次计算复杂度。传统的解决方案,如扩展注意力窗口或后训练,显著增加了计算和内存成本,且仍难以捕捉长距离依赖。为此,本研究提出了一种基于动态上下文的注意力机制,旨在实现长度泛化,同时通过固定大小的注意力窗口访问长距离信息,降低训练和推理成本。

Method

本文提出了一种新颖的注意力机制——Grouped Cross Attention (GCA),其核心思想是将输入序列分成固定大小的块(chunks),并通过可微分检索机制动态选择与当前块最相关的过去块,用于后续token预测。具体步骤如下:

批判性思考:虽然GCA通过端到端训练检索器避免了传统检索增强语言模型(RLM)依赖外部预训练检索器的局限,但分块处理可能导致细粒度上下文信息的丢失,尤其在需要跨块理解复杂语义时。此外,Gumbel top-k采样可能引入噪声,影响检索稳定性,作者未充分讨论这一潜在问题。

Experiment

实验在多个任务上评估了GCA和DRT的表现,包括长距离语言建模(PG19和arXiv-math数据集)、下游任务(如摘要生成)和RULER基准测试中的needle-in-a-haystack (NIAH) 测试。实验设置如下:

批判性思考:实验结果令人印象深刻,但存在一些问题。首先,NIAH测试任务较为简单,可能无法反映真实复杂任务中的表现。其次,基线模型如RPT的重新实现可能未达到最优性能,影响对比公平性。此外,实验模型规模较小(最高3B参数),在大规模模型上的效果仍需验证。最后,CPU内存卸载虽降低GPU内存占用,但可能在高并发场景下引入延迟,作者未充分讨论这一问题。

Further Thoughts

GCA机制通过将检索与自回归损失端到端结合,为长上下文建模提供了一种新思路,值得进一步探索。然而,其分块处理方式可能在需要细粒度语义理解的任务中受限,未来可以考虑结合多尺度表示或自适应分块策略来缓解这一问题。此外,GCA的检索机制与检索增强生成(RAG)领域有潜在联系,可以探索将GCA应用于外部知识库检索,以提升模型在开放域问答等任务中的表现。另一个值得思考的方向是,GCA在处理超长上下文时的内存卸载策略是否适用于实时应用场景,尤其是在边缘设备或低延迟需求下,可能需要更高效的内存管理机制或分布式计算支持。



Previous Post
Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections
Next Post
Adversarial Attacks in Multimodal Systems: A Practitioner's Survey