Skip to content
Go back 2406.02536 arXiv logo

Mitigate Position Bias in Large Language Models via Scaling a Single Dimension

Published:  at  11:22 AM
85.47 🤔

本文提出通过缩放隐藏状态中的位置通道来缓解长上下文语言模型的位置偏差问题,并在多个模型和任务上验证了其有效性,特别是在“中间丢失”基准测试中显著提升了中间位置信息的利用率。

Large Language Model, Long Context, Transformer, Reasoning, Efficiency

Yijiong Yu, Huiqiang Jiang, Xufang Luo, Qianhui Wu, Chin-Yew Lin, Dongsheng Li, Yuqing Yang, Yongfeng Huang, Lili Qiu

Tsinghua University, Microsoft Corporation

Generated by grok-3

Background Problem

长上下文语言模型(LCLMs)能够处理较长的上下文,但在处理中间位置的关键信息时常表现出“中间丢失”(lost in the middle)的位置偏差问题,导致性能下降。已有研究从数据分布和位置嵌入(Position Embedding)角度分析了这一问题,但忽略了隐藏状态(Hidden States)中的位置信息可能也是偏差来源之一。本文旨在探索隐藏状态中位置信息对位置偏差的影响,并提出一种方法来缓解这一问题,从而提升模型对长上下文信息的利用能力。

Method

本文提出了一种通过缩放隐藏状态中的位置通道(Positional Hidden States)来缓解位置偏差的方法,具体步骤如下:

Experiment

实验在多个开源模型(如LLaMA-2、Mistral、Vicuna、Gemma、Qwen、MPT)上进行,涵盖RoPE模型、上下文窗口扩展模型和Alibi模型,评估任务包括“中间丢失”基准测试(NaturalQuestions多文档问答和KV检索)和LongBench长上下文多任务基准测试。

Further Thoughts

本文提出的隐藏状态中位置信息的视角为研究位置偏差提供了新思路,但其方法依赖启发式搜索和工程经验,缺乏理论深度。未来可以探索更系统化的位置通道识别方法,例如通过神经网络的可解释性技术(如注意力可视化或梯度分析)来定位与位置偏差相关的隐藏状态维度。此外,缩放操作仅针对最后一个token的注意力计算,这种设计虽然减少了副作用,但可能忽略了上下文整体位置信息的动态交互,是否可以通过更全局的调整(如多token注意力权重调整)来进一步提升效果值得研究。另一个有趣的方向是结合位置嵌入和隐藏状态位置信息的联合优化,可能在长上下文任务中实现更平衡的注意力分布。最后,本文提到新模型(如Qwen2.5)在传统基准测试中已接近完美性能,这提示我们需要设计更具挑战性的长上下文任务或基准测试,以验证此类方法的实际价值。



Previous Post
Core Context Aware Transformers for Long Context Language Modeling
Next Post
When More is Less: Understanding Chain-of-Thought Length in LLMs