Skip to content
Go back 2505.17296 arXiv logo

SELF: Self-Extend the Context Length With Logistic Growth Function

Published:  at  11:52 AM
86.07 🤔

本文提出SELF方法,通过逻辑增长函数动态调整token分组大小以扩展大型语言模型的上下文长度,在部分长上下文任务上相较Self-Extend提升了性能,但普适性和稳定性仍需验证。

Large Language Model, Long Context, Representation Learning, Efficiency

Phat Thanh Dang, Saahil Thoppay, Wang Yang, Qifan Wang, Vipin Chaudhary, Xiaotian Han

Case Western Reserve University, Meta

Generated by grok-3

Background Problem

大型语言模型(LLMs)在处理超出预训练上下文长度(如2k-4k token)的长输入时,常常由于位置编码(如RoPE)在未训练的大相对距离上的分布外(O.O.D)问题而表现不佳,导致输出不可预测甚至不可读。已有方法如Self-Extend(SE)通过固定大小的分组和邻近窗口来缓解这一问题,但分组策略不够灵活,远距离token分组后模型困惑度(perplexity)骤增,且邻近窗口结束后性能下降明显。论文提出了一种新的方法SELF,旨在通过动态调整分组大小来更平滑地处理远距离token,从而在不牺牲模型性能的情况下有效扩展上下文长度,解决长上下文任务中的语义理解和性能下降问题。

Method

Experiment

Further Thoughts

SELF方法提出了一种有趣的动态分组策略,试图通过逻辑增长函数模拟自然语言中token相关性随距离衰减的特性,但其实际效果和普适性仍需进一步探索。尤其是在推理模型上的失败案例(如DeepSeek-R1-Distill-Qwen-7B的推理循环问题)提示我们,上下文扩展方法可能需要考虑模型的训练目标和内部机制,而不仅仅是输入处理方式。未来的研究可以尝试结合注意力机制或语义分析来指导分组,而不仅仅依赖距离函数,这可能更有效地捕捉长距离依赖。

此外,SELF在计算效率上的劣势(相较SE)是一个实际问题,尤其是在边缘设备或高吞吐量场景下。是否可以通过算法优化(如近似计算逻辑函数)或硬件加速来缓解这一问题,值得进一步研究。另一个有趣的方向是将SELF与其他上下文扩展方法(如Position Interpolation或LongLoRA)结合,探索混合策略是否能带来更大的性能提升。

最后,SELF的实验结果显示出任务和模型依赖性,这让我联想到近期一些关于模型架构对上下文扩展适应性的研究。例如,有工作表明Transformer架构在长上下文上的表现受限于注意力机制的稀疏性,而State Space Model可能在长序列上有天然优势。SELF是否能在不同架构(如State Space Model)上发挥作用,或者是否需要针对特定架构进行调整,这些问题可能为后续研究提供新的视角。



Previous Post
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
Next Post
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models