Which Attention Heads Matter for In-Context Learning?

本文通过对12个大型语言模型进行消融研究和训练动态分析，发现函数向量头是驱动少样本上下文学习的主要机制，尤其在大型模型中，并且许多函数向量头在训练过程中从归纳头演变而来，纠正了先前认为归纳头是主要驱动力的观点。

Large Language Model, In-Context Learning, Few-Shot Learning, Transformer, Reasoning, Representation Learning

Kayo Yin, Jacob Steinhardt

UC Berkeley

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型（LLMs）展现出强大的上下文学习（ICL）能力，仅通过少量示例即可执行新任务。目前有两种主要机制被提出解释ICL：归纳头（Induction Heads）用于查找和复制相关token，以及函数向量头（Function Vector, FV Heads）用于计算ICL任务的潜在编码。先前的研究对哪种机制是ICL的主要驱动力存在分歧，部分原因在于使用了不同的衡量指标或仅关注小型模型。本文旨在通过对多种模型进行系统性研究来解决这一问题。

Method

识别归纳头: 使用TransformerLens框架，在重复的合成序列上计算“归纳分数”（Induction Score）。分数衡量注意力头在处理当前token时，对该token先前出现位置的下一个token的注意力权重。
识别FV头: 使用因果中介分析框架，计算“FV分数”（FV Score）。分数衡量注意力头在任务特定平均激活模式下，对恢复被扰乱（标签打乱）的上下文示例中正确输出的因果贡献。
消融研究: 通过将目标注意力头的输出替换为其在任务数据集上的平均输出来禁用特定头部（平均消融）。比较消融归纳头和FV头对ICL性能的影响。引入“排除式消融”来控制两种头部集合之间的重叠：消融某一类头部时，排除属于另一类头部集合的头部。
训练动态分析: 分析归纳头和FV头在模型训练过程中的分数演变。

Experiment

模型: 12个解码器only的Transformer模型，参数量从70M到7B不等（Pythia系列、GPT-2系列、Llama 2 7B）。
任务: 45个自然语言ICL任务，分为用于计算FV分数的26个任务和用于评估ICL性能的19个任务。每个评估prompt包含10个示例和1个查询。
指标: 少样本ICL准确率（主要指标），Token-loss difference（与先前工作比较）。
结果:
- 归纳头和FV头是不同的机制，但存在相关性（集合重叠小，但彼此分数相对较高）。归纳头通常出现在较早层和训练早期，FV头出现在稍深层和训练后期。
- 消融FV头显著降低少样本ICL准确率，远超消融归纳头，尤其在大型模型中。
- 排除式消融（低FV分数的）归纳头对ICL准确率影响微乎其微，与随机消融相似（在大型模型中）。
- 排除式消融（低归纳分数的）FV头仍显著损害ICL性能。
- Token-loss difference指标表现不同：消融归纳头影响更大（尽管随规模减小）。这解释了先前研究的矛盾发现。
- 训练动态：归纳头在训练早期出现并趋于稳定，FV头出现较晚并逐渐增强。许多最终成为强FV头的头部在训练早期表现出高归纳分数，随后分数下降，FV分数上升，表明存在从归纳头向FV头的演变。

Further Thoughts

归纳头向FV头的演变路径是一个非常有趣的发现，它可能揭示了模型学习复杂任务表示的一种通用模式：先学习简单的模式匹配（归纳），再在此基础上构建更抽象、更强大的任务编码（FV）。这是否意味着可以通过设计特定的训练课程或架构来加速或优化FV机制的学习？此外，模型规模对机制相对重要性的影响表明，小型模型的可解释性发现不能简单推广到大型模型，未来的研究需要更多地关注大规模模型。最后，本文强调了精确定义和衡量模型能力的重要性，不同的指标确实可能反映模型学习到的不同方面。