本文通过大规模数据集 QUITEAFEW 研究上下文学习中任务向量的作用,发现其在中间层表现最佳但对复杂任务支持不足,提出复杂任务依赖多个子任务向量的分布式表示假设。
In-Context Learning, Large Language Model, Representation Learning, Task Vector, Multimodal Data
Pavel Tikhonov, Ivan Oseledets, Elena Tutubalina
AIRI, Moscow, Russia, Skoltech, Moscow, Russia
Generated by grok-3
Background Problem
上下文学习(ICL)是大型语言模型(LLMs)的一项关键能力,使其能够通过少量示例快速适应新任务,而无需更新权重。近年来,研究者提出任务向量(Task Vector)——特定隐藏状态激活——可能是模型编码任务信息的核心机制。然而,现有研究多基于小规模、人工设计的任务集,限制了对任务向量动态的全面理解。关键问题在于:单一任务向量是否足以代表复杂任务的信息?本文通过引入大规模多样化任务数据集 QUITEAFEW,旨在揭示任务向量在不同任务类型中的表现差异及其局限性。
Method
本文提出了一种系统性分析任务向量(Task Vector)的方法,核心思想是通过大规模多样化任务数据集 QUITEAFEW(包含3096个任务,每个任务有30个输入-输出对)来研究任务向量在上下文学习(ICL)中的作用。具体步骤如下:
- 任务向量定义与提取:任务向量被定义为少样本提示中特定 token(如分隔符 ’->‘)在模型某层(如 Llama-3-8B 的第15层)的隐藏状态。在推理时,通过因果干预将提取的任务向量注入到零样本输入的对应位置,指导模型生成输出。
- 数据集构建:基于 Alpaca 数据集,利用 Qwen-2.5-72B 和 Qwen-3-235B-A22B 模型生成多样化任务,确保每个任务有足够多样性的输入-输出对,并通过分类提示过滤不适合的任务。
- 任务性能分析:在不同任务类别(如分类、改写、生成)中,分析任务向量在模型各层的表现,并与零样本和完整少样本基线对比。评估采用基于 LLM 的评分方式,分为格式分(Format Score)和正确性分(Correctness Score)。
- 复杂任务分析:针对复杂任务,提出子任务向量(Sub-Task Vectors)假设,即模型可能依赖多个特定子任务的向量,而非单一任务向量。通过合成汽车描述转 JSON 格式的任务,验证子任务向量在预测固定结构和动态内容时的有效性。 批判性思考:虽然方法创新性地引入了大规模数据集和子任务向量概念,但基于 LLM 的评分可能引入主观性,且任务向量的提取和干预方式过于依赖特定 token 位置(如 ’->’),可能忽略了其他潜在的任务信息表示形式。此外,子任务向量的验证仅基于合成任务,真实任务中的适用性仍需进一步探讨。
Experiment
实验基于 Llama-3-8B 模型和 QUITEAFEW 数据集(3096个任务),主要分为以下部分:
- 层级表现分析:在模型各层提取任务向量,发现第15层(中间层)在各类任务(如分类、改写、生成)中表现最佳,格式分和正确性分均达到峰值。这与现有研究一致,表明中间层对任务信息编码至关重要。
- 任务类型差异:通过与零样本和完整少样本基线对比,发现任务向量在某些任务(如翻译、分类)中显著优于零样本,接近少样本表现;但在复杂任务(如分类物品、分析句子)中,表现与零样本无异,甚至略有下降,表明单一任务向量对复杂任务的支持不足。
- 复杂任务实验:通过合成任务(汽车描述转 JSON 格式),对比自然生成、经典任务向量和子任务向量三种策略。结果显示,子任务向量在预测固定结构(如属性名 ‘color’)和动态内容(如值 ‘red’)时,正确 token 的概率显著高于其他两种方法,验证了复杂任务依赖多个分布式任务向量的假设。 批判性思考:实验设计较为全面,覆盖了多样化任务和层级分析,但存在以下问题:1)仅使用 Llama-3-8B 模型,结论可能不适用于其他架构或规模的模型;2)基于 LLM 的评分(格式分和正确性分)可能存在评估偏差,缺乏客观标准;3)复杂任务实验仅基于合成数据,未能充分验证真实任务中的适用性;4)实验未探索解码参数(如温度)对任务向量表现的影响,可能错过潜在优化空间。总体而言,实验结果支持了任务向量在中间层表现最佳和复杂任务需要多向量表示的结论,但泛化性和评估可靠性需进一步验证。
Further Thoughts
本文提出的子任务向量(Sub-Task Vectors)概念为理解大型语言模型(LLMs)内部任务表示提供了新视角,特别是在复杂任务中任务知识的分布式表示假设值得深入探索。进一步思考,这种分布式表示是否与模型的注意力机制或特定模块(如 MLP 层)相关?是否可以通过干预多个隐藏状态位置或结合稀疏自编码器(Sparse Autoencoders)进一步解码任务信息?此外,本文的实验局限于单一模型 Llama-3-8B,未来研究可以扩展到不同架构(如 Transformer 变体)或规模的模型,验证任务向量和子任务向量的通用性。另一个有趣的方向是探索任务向量在跨模态任务(如文本-图像)中的表现,结合本文提到的跨模态任务向量研究(如 Luo et al., 2024),或许能揭示更深层次的模型任务编码机制。最后,基于 LLM 的评分方式可能引入主观性,未来可以尝试结合人类评估或任务特定指标(如 BLEU、F1)进行验证,以提高结论的可靠性。