Skip to content
Go back 2504.19483 arXiv logo

Improving Reasoning Performance in Large Language Models via Representation Engineering

Published:  at  11:15 PM
88.60 👍

本文通过表示工程方法,利用控制向量干预大型语言模型的残差流,成功提升了Pythia和Mistral模型在归纳、演绎和数学推理任务上的表现,表明推理能力可通过调整内部表示进行调控。

Large Language Model, Reasoning, Representation Learning, Human-AI Interaction, Efficiency

Bertram Højer, Oliver Jarvis, Stefan Heinrich

IT University of Copenhagen

Generated by grok-3

Background Problem

近年来,大型语言模型(LLM)在推理任务上的表现显著提升,但其内部推理过程是否与人类推理本质上不同,仍存在广泛争议。现有研究多关注模型输出而非内部状态,缺乏对推理相关表示学习动态的深入理解。本文从提升LLM推理能力的角度出发,试图解决如何通过干预模型内部表示来增强其在归纳、演绎和数学推理任务上的表现这一关键问题,探索推理能力是否可以像其他行为特征(如情感倾向)一样被调控。

Method

本文提出了一种基于表示工程(Representation Engineering)的方法,通过以下步骤实现对LLM推理能力的干预:

Experiment

实验在三个推理任务上进行评估:归纳推理(IOI,2000个样本)、演绎推理(bAbI,2000个样本)和数学推理(GSM8K,400个样本),数据集采用训练-测试分割以避免数据污染。使用的模型包括Pythia-1.4B、Pythia-2.8B和Mistral-7B-Instruct,旨在测试方法在不同规模和能力的模型上的效果。实验设置包括:

Further Thoughts

本文提出的控制向量干预方法为调控LLM行为提供了一种轻量级、无需训练的思路,值得进一步探索其在其他任务(如情感分析、生成质量提升)上的潜力。然而,干预机制的理论基础仍需加强,例如残差流中推理表示的具体编码方式,以及为何跨任务控制向量有效,是否与任务间共享的底层语义表示有关。此外,负样本的选择对控制向量质量影响较大,未来可结合认知科学中关于人类推理偏差的研究,设计更具针对性的对比样本。另一个有趣方向是与最近OpenAI在推理模型(如o1系列)上的工作对比,探讨干预方法是否能与专门训练的推理模型结合,进一步提升性能或解释性。最后,干预可能引入的副作用(如熵异常变化)提示我们需关注模型稳定性,尤其是在生产环境中应用时,如何避免干预导致的不可预测输出。



Previous Post
Reinforcement Learning for LLM Reasoning Under Memory Constraints
Next Post
RWKV-X: A Linear Complexity Hybrid Language Model