Skip to content
Go back 2502.02659 arXiv logo

A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)

Published:  at  11:26 AM
85.88 🤔

本文提出了一种无训练的长度外推方法GALI,通过贪婪局部化位置插值和注意力逻辑值插值,显著提升了大型语言模型在长上下文任务中的稳定性和性能,同时避免了输入长度特定调优的需求。

Large Language Model, Long Context, Representation Learning, Efficiency

Yan Li, Tianyi Zhang, Zechuan Li, Soyeon Caren Han

The University of Sydney, The University of Melbourne, Hunan University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在处理超出其训练上下文窗口长度的输入时,常常因位置分布外(O.O.D.)问题导致注意力计算中断,表现为困惑度(PPL)随输入长度增加而指数级上升。这种限制对需要长文本理解的应用(如文档摘要、法律文本分析和对话AI)构成了重大挑战。现有解决方案包括Lambda型注意力机制、长文本微调和无训练外推方法,但它们分别面临效率低下、资源消耗大、注意力逻辑值异常或局部位置信息丢失等问题。本文提出了一种新的无训练长度外推方法,旨在解决位置O.O.D.问题,提升模型在长上下文任务中的稳定性和性能。

Method

本文提出了Greedy Attention Logit Interpolation (GALI),一种无训练的长度外推方法,通过以下两个核心机制实现:

关键问题与批评:虽然GALI的局部化插值理论上减少了位置信息的丢失,但chunk划分和插值计算可能引入新的复杂性,尤其是在处理极长序列时可能导致计算开销增加。此外,高斯噪声的引入缺乏充分的理论依据,其参数选择(如噪声尺度)可能对性能有较大影响,论文未提供足够的调参分析。

Experiment

实验基于Llama3-8B-ins模型,分为真实世界长上下文任务和长上下文语言建模任务两类,数据集包括LongBench、L-Eval和PG19,与其他无训练外推方法(如NTK、Dyn-NTK、YaRN、SelfExtend和ChunkLlama)进行对比。

Further Thoughts

GALI提出的狭窄位置区间插值策略为位置编码设计提供了新思路,可能启发未来在注意力机制中更精细的位置信息处理方法。然而,其与flash attention的不兼容性是一个显著限制,特别是在需要高效推理的实际应用场景中。未来研究可以探索如何将GALI的逻辑值插值思想与高效注意力计算框架结合。此外,GALI对高斯噪声的依赖性值得进一步探讨,是否可以通过更理论化的方法(如基于RoPE振荡特性的自适应噪声)替代当前经验性设计?与此同时,考虑到近年来多模态模型(如Vision Foundation Model)中长序列处理需求的增加,GALI的理念是否可以扩展到多模态数据的位置编码问题,也是一个值得探索的方向。



Previous Post
Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
Next Post
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation