ExpertSteer: Intervening in LLMs through Expert Knowledge

EXPERTSTEER提出了一种创新的激活转向方法，通过自编码器、互信息分析和递归特征机从外部专家模型生成转向向量，干预任意目标大型语言模型的行为，在多个领域和模型上显著提升性能。

Large Language Model, Activation Steering, Knowledge Transfer, Representation Learning, Inference-Time Intervention

Weixuan Wang, Minghao Wu, Barry Haddow, Alexandra Birch

University of Edinburgh, Monash University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在多种任务上展现了卓越能力，但如何在推理时引导其行为以符合特定需求仍是一个挑战。现有激活转向（activation steering）方法通过修改模型内部激活值来控制行为，但通常依赖目标模型自身生成转向向量，限制了其知识范围和跨模型适用性。EXPERTSTEER旨在解决这一问题，通过引入外部专家模型生成转向向量，实现任意专家模型到目标LLM的知识转移，从而提升目标模型在特定领域或任务上的表现，同时避免传统微调方法的高计算成本和灾难性遗忘问题。

Method

EXPERTSTEER提出了一种新颖的激活转向框架，通过以下四个步骤实现从外部专家模型到目标LLM的知识转移：

维度对齐：由于专家模型和目标模型的隐藏状态维度可能不同，论文使用自编码器（auto-encoder）将专家模型的隐藏状态投影到目标模型的维度空间，优化重建损失以保留关键信息。然而，这种方法可能在维度差异较大时导致信息丢失，影响后续步骤的效果。
干预层对识别：基于互信息（MI）分析，识别专家模型和目标模型之间隐藏状态差异最大的层对，作为干预点。MI较低的层对被认为更需要干预，但MI估计的准确性可能受限于数据量和计算方法，存在一定不确定性。
转向向量生成：在选定的专家模型层上，使用递归特征机（Recursive Feature Machines, RFMs）提取关键特征，通过核岭回归（Kernel Ridge Regression, KRR）和自适应梯度最优扰动（AGOP）矩阵生成转向向量。这一过程较为复杂，计算成本较高，且依赖于正负样本的标注质量。
推理时干预：在推理过程中，将生成的转向向量应用到目标模型的选定层，通过调整隐藏状态实现行为引导，干预强度由超参数控制。这种方法避免了模型参数更新，但转向向量的有效性可能因模型间差异而有所波动。

总体而言，EXPERTSTEER的方法创新性较高，但其复杂性（如RFMs的迭代计算）和潜在的信息丢失问题（如自编码器投影）可能限制其实际应用效果。

Experiment

论文在四个领域（医疗、金融、数学、通用）上，使用三个目标模型（Llama-3.1-8B-Instruct, Qwen2.5-7B-Instruct, Gemma-2-2b-Instruct）和多个专家模型，基于15个基准数据集进行了广泛实验。实验设置涵盖了两种知识转移场景：从领域特定专家模型到通用目标模型，以及从大型通用模型到小型通用模型。结果显示：

效果：EXPERTSTEER在大多数任务和模型上显著优于现有激活转向方法（如ITI, CAA, SADI），并在某些情况下接近或超过微调方法（如SFT, KD）。例如，在医疗和金融领域，Llama-3.1-8B-Instruct和Qwen2.5-7B-Instruct的平均性能提升分别为+4.98和+5.34。
模型规模差异：方法在较小模型（如Gemma-2-2b-Instruct）上的提升幅度较小，表明其效果可能依赖于目标模型的容量。论文分析认为，小模型受益更多，但实验数据未完全支持这一结论。
跨模型适用性：EXPERTSTEER在同家族和跨家族模型设置下均表现出色，证明了其通用性，但跨家族设置下的提升略低于同家族设置。
实验设计的合理性：数据集和模型选择较为全面，覆盖了多种任务类型和模型规模。然而，实验未充分探讨转向向量生成中样本选择偏差的影响，也缺乏对方法鲁棒性的测试（如对抗性输入或噪声数据）。此外，部分结果（如Gemma模型上的小幅提升）与预期不完全一致，可能需要进一步分析原因。

总体来看，实验结果支持了EXPERTSTEER的有效性，但提升幅度不均且对模型规模敏感，实验设计中某些潜在问题（如样本偏差和鲁棒性测试不足）可能影响结果的可靠性。

Further Thoughts

EXPERTSTEER的核心思想——利用外部专家模型进行知识转移——为激活转向领域开辟了新的研究方向，但其方法复杂性和实验结果的不一致性提示我们需要进一步探索更简化和鲁棒的实现方式。例如，是否可以通过更轻量级的维度对齐方法（如简单的线性变换而非自编码器）来减少信息丢失？此外，论文未探讨转向向量在不同任务间的可迁移性，如果转向向量能在多个任务间复用，将大大提升方法的实用性。另一个值得思考的点是，EXPERTSTEER与最近兴起的模型融合（model merging）技术有一定的概念重叠，未来可以探索将转向向量干预与模型权重融合相结合，以实现更高效的知识整合。最后，考虑到激活转向可能被用于恶意目的（如绕过模型安全限制），EXPERTSTEER的安全性和伦理影响也需要进一步研究，尤其是在跨模型知识转移可能泄露专家模型专有信息的情况下。