Skip to content
Go back 2502.14010 arXiv logo

Which Attention Heads Matter for In-Context Learning?

Published:  at  11:15 PM
90.67 👍

本文通过对12个大型语言模型进行消融研究和训练动态分析,发现函数向量头是驱动少样本上下文学习的主要机制,尤其在大型模型中,并且许多函数向量头在训练过程中从归纳头演变而来,纠正了先前认为归纳头是主要驱动力的观点。

Large Language Model, In-Context Learning, Few-Shot Learning, Transformer, Reasoning, Representation Learning

Kayo Yin, Jacob Steinhardt

UC Berkeley

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)展现出强大的上下文学习(ICL)能力,仅通过少量示例即可执行新任务。目前有两种主要机制被提出解释ICL:归纳头(Induction Heads)用于查找和复制相关token,以及函数向量头(Function Vector, FV Heads)用于计算ICL任务的潜在编码。先前的研究对哪种机制是ICL的主要驱动力存在分歧,部分原因在于使用了不同的衡量指标或仅关注小型模型。本文旨在通过对多种模型进行系统性研究来解决这一问题。

Method

Experiment

Further Thoughts

归纳头向FV头的演变路径是一个非常有趣的发现,它可能揭示了模型学习复杂任务表示的一种通用模式:先学习简单的模式匹配(归纳),再在此基础上构建更抽象、更强大的任务编码(FV)。这是否意味着可以通过设计特定的训练课程或架构来加速或优化FV机制的学习?此外,模型规模对机制相对重要性的影响表明,小型模型的可解释性发现不能简单推广到大型模型,未来的研究需要更多地关注大规模模型。最后,本文强调了精确定义和衡量模型能力的重要性,不同的指标确实可能反映模型学习到的不同方面。



Previous Post
TTRL: Test-Time Reinforcement Learning
Next Post
Reinforcement Learning for LLM Reasoning Under Memory Constraints