Skip to content
Go back 2504.18857 arXiv logo

Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation

Published:  at  01:18 AM
81.62 🤔

本文提出DPE,一种无需训练的长文本外推方法,通过检测RoPE不同维度组的有效相对距离并识别关键维度,有选择地调整这些关键维度的位置索引,显著扩展了LLM的上下文窗口并提升了长文本任务性能。

Large Language Model, Long Context, Representation Learning, Efficiency, Pre-training

Yi Lu, Wanxu Zhao, Xin Zhou, Chenxin An, Chenglong Wang, Shuo Li, Yuming Yang, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Fudan University, The University of Hong Kong, Northeastern University

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)在处理超出预训练长度的文本时性能会显著下降。现有的长文本扩展方法通常需要昂贵的持续训练,或者采用对所有维度进行统一修改的无训练方法,这些方法未能充分考虑RoPE不同维度对长文本处理的差异化贡献,导致性能受限。RoPE在长文本外推中存在明显的分布外(OOD)问题,这与未见过的相对位置有关。虽然有方法尝试通过缩放频率或统一调整相对位置来缓解,但忽略了RoPE不同维度/频率子空间的差异性。

Method

Experiment

Further Thoughts

这项工作通过深入分析RoPE不同维度的特性,提出了一个无需训练且效果显著的长文本外推方法。其核心洞察在于“维度差异性”和“关键维度”的存在。这不仅为RoPE的改进提供了新思路,也提示我们在处理其他模型组件(如Attention Head、FFN层等)时,或许也应该考虑其内部维度或子组件的差异化贡献和特性,而非一概而论。例如,Attention Head的差异性已被广泛研究,但FFN内部维度的作用差异是否也值得探索?此外,DPE的“检测有效长度”步骤依赖于下游任务表现,这是否意味着其检测结果具有一定的任务依赖性?未来的工作或许可以探索更通用的维度特性分析方法,或者研究如何将这种维度层面的精细化调整应用于其他位置编码方式或模型架构。



Previous Post
On the generalization of language models from in-context learning and finetuning: a controlled study
Next Post
TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts