本文通过表示工程方法,利用控制向量干预大型语言模型的残差流,成功提升了Pythia和Mistral模型在归纳、演绎和数学推理任务上的表现,表明推理能力可通过调整内部表示进行调控。
Large Language Model, Reasoning, Representation Learning, Human-AI Interaction, Efficiency
Bertram Højer, Oliver Jarvis, Stefan Heinrich
IT University of Copenhagen
Generated by grok-3
Background Problem
近年来,大型语言模型(LLM)在推理任务上的表现显著提升,但其内部推理过程是否与人类推理本质上不同,仍存在广泛争议。现有研究多关注模型输出而非内部状态,缺乏对推理相关表示学习动态的深入理解。本文从提升LLM推理能力的角度出发,试图解决如何通过干预模型内部表示来增强其在归纳、演绎和数学推理任务上的表现这一关键问题,探索推理能力是否可以像其他行为特征(如情感倾向)一样被调控。
Method
本文提出了一种基于表示工程(Representation Engineering)的方法,通过以下步骤实现对LLM推理能力的干预:
- 核心思想:从LLM的残差流(Residual Stream)中提取推理任务处理时的激活值,构建控制向量(Control Vector),并在推理时通过干预残差流来调整模型的表示空间,从而提升特定任务的表现。
- 具体实现:
- 在模型处理推理任务(如IOI、bAbI、GSM8K)时,提取每个层在最后一个token处的隐藏状态激活值()。
- 基于激活值构建控制向量,方法包括:简单平均(Reading Vector,公式:)、对比样本差值(Contrastive Pairs,公式:)以及主成分分析(PCA,提取激活差值的最大方差方向)。
- 在推理时,将控制向量以可调强度()添加到残差流中(公式:),通常作用于中间层。
- 关键点:该方法无需额外训练,仅在推理时进行干预,计算开销低,且通过对比样本(正样本为正确推理,负样本为错误或随机输入)增强控制向量的针对性。
Experiment
实验在三个推理任务上进行评估:归纳推理(IOI,2000个样本)、演绎推理(bAbI,2000个样本)和数学推理(GSM8K,400个样本),数据集采用训练-测试分割以避免数据污染。使用的模型包括Pythia-1.4B、Pythia-2.8B和Mistral-7B-Instruct,旨在测试方法在不同规模和能力的模型上的效果。实验设置包括:
- 控制向量构建:基于训练集提取激活值,采用PCA和对比样本方法构建控制向量,负样本尝试了错误答案和随机字符两种方案。
- 干预方式:将控制向量应用于中间层,调整强度参数(范围为[-3, 3]),观察对模型性能的影响。
- 评估指标:包括准确率(基于输出logits)、KL散度(,衡量分布变化)、熵(,衡量不确定性)以及正确/错误答案的平均概率。
- 结果分析:
- Pythia模型在IOI任务上表现出轻微性能提升,准确率随正向增加略有提高,但熵和KL散度的变化表明干预可能导致概率分布偏向特定错误token。
- Mistral-7B-Instruct在bAbI和GSM8K任务上性能提升更明显,尤其在GSM8K上负向值带来显著改进;跨任务应用控制向量(如bAbI向量用于GSM8K)也显示出类似提升,表明推理表示具有一定共性。
- 然而,熵的变化与预期不完全一致(如bAbI任务熵略升),表明干预可能引入未预期的分布变化;此外,模型对的敏感性因规模而异,较大模型(如Mistral)对干预更稳健。
- 实验设计问题:任务复杂度(如IOI过于简单)和模型规模(最大仅7B参数)限制了结果的普适性;负样本定义不够清晰,可能影响控制向量质量;指标解释未充分探讨干预机制,仅停留在表面观察。
Further Thoughts
本文提出的控制向量干预方法为调控LLM行为提供了一种轻量级、无需训练的思路,值得进一步探索其在其他任务(如情感分析、生成质量提升)上的潜力。然而,干预机制的理论基础仍需加强,例如残差流中推理表示的具体编码方式,以及为何跨任务控制向量有效,是否与任务间共享的底层语义表示有关。此外,负样本的选择对控制向量质量影响较大,未来可结合认知科学中关于人类推理偏差的研究,设计更具针对性的对比样本。另一个有趣方向是与最近OpenAI在推理模型(如o1系列)上的工作对比,探讨干预方法是否能与专门训练的推理模型结合,进一步提升性能或解释性。最后,干预可能引入的副作用(如熵异常变化)提示我们需关注模型稳定性,尤其是在生产环境中应用时,如何避免干预导致的不可预测输出。