Skip to content
Go back 2505.18706 arXiv logo

Steering LLM Reasoning Through Bias-Only Adaptation

Published:  at  11:21 AM
87.94 🤔

本文通过训练转向向量(steering vectors)验证了大型语言模型中推理能力已潜藏的假设,在数学推理任务上以极高的参数效率接近甚至超过全模型微调的表现。

Large Language Model, Reinforcement Learning, Reasoning, Parameter-Efficient Fine-Tuning, Interpretability

Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov

T-Tech

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过大规模预训练在语言理解和生成任务上表现出色,但如何有效激发其潜藏能力(如推理能力)仍是研究热点。近期如 openai-o1 等系统通过强化学习(RL)微调来增强推理能力,并声称RL带来了新的能力。然而,越来越多的证据表明,这些推理技能可能早已存在于预训练模型中,RL只是起到了放大的作用。本文通过提出并验证‘转向向量’(steering vectors)方法,直接测试这一假设,探索是否可以通过轻量级干预而非全面微调来解锁模型的推理能力,解决参数效率和计算成本的问题。

Method

本文提出了一种名为‘转向向量’(steering vectors)的方法,核心思想是通过在每个Transformer层添加可训练的偏置向量来调整模型的隐藏状态(residual stream),从而放大模型中已存在的推理能力,而不改变原始权重。具体步骤如下:

批判性思考:虽然转向向量方法在参数效率上具有优势,但其局限在于可能无法捕捉需要复杂权重调整的任务特性。作者假设转向向量只能放大已有特征而非创造新特征,但未充分讨论当模型预训练知识不足时该方法的失效场景。此外,训练转向向量的在线RL过程可能对超参数敏感,而论文未提供足够的超参数搜索细节,这可能影响结果的稳健性。

Experiment

实验在四个预训练模型(Qwen-2.5-1.5B、Qwen-2.5-Math-1.5B、Llama-3.1-8B、Llama-3.1-8B-Instruct)上进行,使用GSM8K和MATH两个数学推理数据集,评估三种训练方式:全模型微调、转向向量训练和LoRA训练。实验设置包括训练和测试数据集的交叉组合,报告mean@8准确率。

批判性思考:虽然结果显示转向向量有效,但作者可能高估了其普适性。实验结果的提升可能部分归因于任务特性(数学推理问题结构化较强),而非转向向量本身的强大能力。未提供足够证据证明转向向量在预训练知识较弱的模型上的表现,这限制了结论的推广性。

Further Thoughts

转向向量方法提供了一个极具潜力的参数高效微调思路,但其适用范围和局限性值得进一步探索。例如,是否可以在非推理任务(如情感分析或生成任务)上应用转向向量来放大特定行为?此外,与其他参数高效方法(如BitFit或Prompt Tuning)相比,转向向量在计算成本和效果上的权衡如何?一个有趣的联系是,转向向量与神经网络的可解释性研究密切相关,logit-lens分析揭示了模型内部的token偏好,但这种分析是否能进一步扩展到理解模型的推理‘电路’(circuit),从而为设计更安全的AI系统提供启示?另一个思考方向是转向向量在多模态模型中的应用潜力,例如在视觉-语言模型中是否可以通过类似方法增强跨模态推理能力?这些问题值得后续研究深入探讨,以验证转向向量方法的真正价值和局限性。



Previous Post
Tensor Product Attention Is All You Need
Next Post
Learning Composable Chains-of-Thought