Skip to content
Go back 2505.09338 arXiv logo

Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs

Published:  at  11:17 PM
88.54 🤔

本文提出上下文牵引(Contextual Entrainment)现象,揭示语言模型对提示中出现token的机制性偏好,并通过可微分掩码方法识别牵引头(entrainment heads),为理解和缓解分心问题提供了新视角。

Large Language Model, In-Context Learning, Reasoning, Robustness, RAG

Jingcheng Niu, Xingdi Yuan, Tong Wang, Hamidreza Saghir, Amir H. Abdi

University of Toronto, UKP Lab, Technical University of Darmstadt, Microsoft

Generated by grok-3

Background Problem

大型语言模型(LLMs)在利用上下文提示信息方面表现出色,但也容易受到无关上下文的干扰,导致分心(distraction)问题,这在检索增强生成(RAG)等领域尤为突出。本文从机制性视角出发,提出并研究了一种新现象——上下文牵引(Contextual Entrainment),即模型会给之前在提示中出现过的token分配更高的概率或logit,无论其是否与问题相关。这一现象被认为是分心问题的一个关键因素,作者旨在通过揭示其机制性本质及其受语义因素调节的特点,为解决分心问题提供新的研究方向。

Method

本文提出了上下文牵引(Contextual Entrainment)这一新现象,并通过以下方法进行研究:

批判性思考:虽然可微分掩码方法在考虑注意力头交互方面优于先前方法,但其优化过程可能受到超参数(如温度τ和稀疏性权重λ)的影响,作者未充分讨论这些参数的选择对结果的潜在偏差。此外,方法是否适用于更大规模模型或更复杂任务仍存疑问,缺乏对方法局限性的深入分析。

Experiment

实验主要基于LRE数据集,涵盖多种关系(如国家-首都、公司-总部),并在多个语言模型(如Llama-3.1-8B、Llama-2-7b、GPT2 XL)上进行测试。设置包括四种上下文提示:相关、无关、随机和反事实,观察模型对正确token和干扰token的logit及概率变化。结果表明:

实验设计评价:实验设置较为严谨,涵盖多种上下文类型和模型,统计分析也支持结论。然而,实验仅限于LRE数据集,未涉及标准RAG数据集(如SimpleQA),可能限制结果在实际应用中的泛化性。此外,牵引头识别的稳定性虽有提及(附录D),但未提供足够证据证明其在不同数据集或任务上的鲁棒性。结果虽符合预期,但关闭牵引头对其他能力的‘小影响’是否在更复杂场景中依然成立,仍需进一步验证。

Further Thoughts

上下文牵引现象和牵引头的发现为语言模型的可解释性研究开辟了新方向,尤其是在分心问题和RAG系统的鲁棒性方面。作者提出的可微分掩码方法可能与近期关于注意力机制功能分解的研究(如Jin et al., 2024)结合,进一步揭示模型如何平衡内部记忆与外部上下文信息。此外,反事实提示引发更强牵引效应的发现提示我们,模型对错误信息的敏感性可能与数据预训练中的偏差有关,未来可以探索是否通过调整预训练数据分布或引入对抗性训练来缓解这一问题。另一个有趣的方向是,牵引头是否与模型的涌现能力(emergent abilities)相关,特别是在处理长上下文(long context)时,是否可以通过调控这些头来提升模型对无关信息的过滤能力?这些问题值得在更大规模模型和更广泛数据集上进一步研究,以验证本文结论的普适性和应用潜力。



Previous Post
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement
Next Post
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One