Skip to content
Go back 2505.23911 arXiv logo

One Task Vector is not Enough: A Large-Scale Study for In-Context Learning

Published:  at  11:28 AM
91.21 🤔

本文通过大规模数据集 QUITEAFEW 研究上下文学习中任务向量的作用,发现其在中间层表现最佳但对复杂任务支持不足,提出复杂任务依赖多个子任务向量的分布式表示假设。

In-Context Learning, Large Language Model, Representation Learning, Task Vector, Multimodal Data

Pavel Tikhonov, Ivan Oseledets, Elena Tutubalina

AIRI, Moscow, Russia, Skoltech, Moscow, Russia

Generated by grok-3

Background Problem

上下文学习(ICL)是大型语言模型(LLMs)的一项关键能力,使其能够通过少量示例快速适应新任务,而无需更新权重。近年来,研究者提出任务向量(Task Vector)——特定隐藏状态激活——可能是模型编码任务信息的核心机制。然而,现有研究多基于小规模、人工设计的任务集,限制了对任务向量动态的全面理解。关键问题在于:单一任务向量是否足以代表复杂任务的信息?本文通过引入大规模多样化任务数据集 QUITEAFEW,旨在揭示任务向量在不同任务类型中的表现差异及其局限性。

Method

本文提出了一种系统性分析任务向量(Task Vector)的方法,核心思想是通过大规模多样化任务数据集 QUITEAFEW(包含3096个任务,每个任务有30个输入-输出对)来研究任务向量在上下文学习(ICL)中的作用。具体步骤如下:

Experiment

实验基于 Llama-3-8B 模型和 QUITEAFEW 数据集(3096个任务),主要分为以下部分:

Further Thoughts

本文提出的子任务向量(Sub-Task Vectors)概念为理解大型语言模型(LLMs)内部任务表示提供了新视角,特别是在复杂任务中任务知识的分布式表示假设值得深入探索。进一步思考,这种分布式表示是否与模型的注意力机制或特定模块(如 MLP 层)相关?是否可以通过干预多个隐藏状态位置或结合稀疏自编码器(Sparse Autoencoders)进一步解码任务信息?此外,本文的实验局限于单一模型 Llama-3-8B,未来研究可以扩展到不同架构(如 Transformer 变体)或规模的模型,验证任务向量和子任务向量的通用性。另一个有趣的方向是探索任务向量在跨模态任务(如文本-图像)中的表现,结合本文提到的跨模态任务向量研究(如 Luo et al., 2024),或许能揭示更深层次的模型任务编码机制。最后,基于 LLM 的评分方式可能引入主观性,未来可以尝试结合人类评估或任务特定指标(如 BLEU、F1)进行验证,以提高结论的可靠性。



Previous Post
QKV Projections Require a Fraction of Their Memory
Next Post
Budget-Adaptive Adapter Tuning in Orthogonal Subspaces for Continual Learning in LLMs