Improving Reasoning Performance in Large Language Models via Representation Engineering

本文通过表示工程方法，利用控制向量干预大型语言模型的残差流，成功提升了Pythia和Mistral模型在归纳、演绎和数学推理任务上的表现，表明推理能力可通过调整内部表示进行调控。

Large Language Model, Reasoning, Representation Learning, Human-AI Interaction, Efficiency

Bertram Højer, Oliver Jarvis, Stefan Heinrich

IT University of Copenhagen

Generated by grok-3

Background Problem

近年来，大型语言模型（LLM）在推理任务上的表现显著提升，但其内部推理过程是否与人类推理本质上不同，仍存在广泛争议。现有研究多关注模型输出而非内部状态，缺乏对推理相关表示学习动态的深入理解。本文从提升LLM推理能力的角度出发，试图解决如何通过干预模型内部表示来增强其在归纳、演绎和数学推理任务上的表现这一关键问题，探索推理能力是否可以像其他行为特征（如情感倾向）一样被调控。

Method

本文提出了一种基于表示工程（Representation Engineering）的方法，通过以下步骤实现对LLM推理能力的干预：

核心思想：从LLM的残差流（Residual Stream）中提取推理任务处理时的激活值，构建控制向量（Control Vector），并在推理时通过干预残差流来调整模型的表示空间，从而提升特定任务的表现。
具体实现：
1. 在模型处理推理任务（如IOI、bAbI、GSM8K）时，提取每个层在最后一个token处的隐藏状态激活值（ $H_\ell(P_i)$ ）。
2. 基于激活值构建控制向量，方法包括：简单平均（Reading Vector，公式： $\mathbf{c}_\ell = \frac{1}{|P|} \sum_{i=1}^{|P|} H_\ell(P_i)$ ）、对比样本差值（Contrastive Pairs，公式： $\mathbf{c}_\ell = \frac{1}{|P^{\pm}|} \sum_{i=1}^{|P^{\pm}|} (H_\ell(P_i^+) - H_\ell(P_i^-)))$ ）以及主成分分析（PCA，提取激活差值的最大方差方向）。
3. 在推理时，将控制向量以可调强度（ $\alpha$ ）添加到残差流中（公式： $\mathbf{x}_{\ell+1} = \text{LayerNorm}(\mathbf{y}_\ell + \text{MLP}(\mathbf{y}_\ell)) + \mathbf{c}_\ell \cdot \alpha$ ），通常作用于中间层。
关键点：该方法无需额外训练，仅在推理时进行干预，计算开销低，且通过对比样本（正样本为正确推理，负样本为错误或随机输入）增强控制向量的针对性。

Experiment

实验在三个推理任务上进行评估：归纳推理（IOI，2000个样本）、演绎推理（bAbI，2000个样本）和数学推理（GSM8K，400个样本），数据集采用训练-测试分割以避免数据污染。使用的模型包括Pythia-1.4B、Pythia-2.8B和Mistral-7B-Instruct，旨在测试方法在不同规模和能力的模型上的效果。实验设置包括：

控制向量构建：基于训练集提取激活值，采用PCA和对比样本方法构建控制向量，负样本尝试了错误答案和随机字符两种方案。
干预方式：将控制向量应用于中间层，调整强度参数 $\alpha$ （范围为[-3, 3]），观察对模型性能的影响。
评估指标：包括准确率（基于输出logits）、KL散度（ $D_{\text{KL}}(P \| P_\alpha)$ ，衡量分布变化）、熵（ $H(X)$ ，衡量不确定性）以及正确/错误答案的平均概率。
结果分析：
- Pythia模型在IOI任务上表现出轻微性能提升，准确率随 $\alpha$ 正向增加略有提高，但熵和KL散度的变化表明干预可能导致概率分布偏向特定错误token。
- Mistral-7B-Instruct在bAbI和GSM8K任务上性能提升更明显，尤其在GSM8K上负向 $\alpha$ 值带来显著改进；跨任务应用控制向量（如bAbI向量用于GSM8K）也显示出类似提升，表明推理表示具有一定共性。
- 然而，熵的变化与预期不完全一致（如bAbI任务熵略升），表明干预可能引入未预期的分布变化；此外，模型对 $\alpha$ 的敏感性因规模而异，较大模型（如Mistral）对干预更稳健。
实验设计问题：任务复杂度（如IOI过于简单）和模型规模（最大仅7B参数）限制了结果的普适性；负样本定义不够清晰，可能影响控制向量质量；指标解释未充分探讨干预机制，仅停留在表面观察。

Further Thoughts

本文提出的控制向量干预方法为调控LLM行为提供了一种轻量级、无需训练的思路，值得进一步探索其在其他任务（如情感分析、生成质量提升）上的潜力。然而，干预机制的理论基础仍需加强，例如残差流中推理表示的具体编码方式，以及为何跨任务控制向量有效，是否与任务间共享的底层语义表示有关。此外，负样本的选择对控制向量质量影响较大，未来可结合认知科学中关于人类推理偏差的研究，设计更具针对性的对比样本。另一个有趣方向是与最近OpenAI在推理模型（如o1系列）上的工作对比，探讨干预方法是否能与专门训练的推理模型结合，进一步提升性能或解释性。最后，干预可能引入的副作用（如熵异常变化）提示我们需关注模型稳定性，尤其是在生产环境中应用时，如何避免干预导致的不可预测输出。