LoKI: Low-damage Knowledge Implanting of Large Language Models

本文提出LoKI，一种参数高效微调框架，通过分析Transformer FFN层的知识存储机制和层平衡参数选择策略，在下游任务适应和预训练知识保留之间实现了竞争性平衡。

Large Language Model, Parameter-Efficient Fine-Tuning, Catastrophic Forgetting, Transformer, Knowledge Representation

Runyu Wang, Peng Ping, Zhengyu Guo, Xiaoye Zhang, Quan Shi, Liting Zhou, Tianbo Ji

Nantong University, South China University of Technology, China Southern Power Grid Company Limited, Dublin City University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在预训练后通过微调适应下游任务时，常常面临灾难性遗忘（CF）问题，即在学习新任务时丢失预训练中获得的关键知识。传统的参数高效微调（PEFT）方法如LoRA虽然降低了计算成本，但仍难以在任务适应和通用能力保留之间取得平衡。本文提出了一种新的PEFT框架LoKI，旨在通过对Transformer架构中知识存储机制的理解，解决CF问题，同时保持对下游任务的竞争力。

Method

LoKI（Low-damage Knowledge Implanting）是一个三阶段的PEFT框架，核心思想是基于Transformer中FFN层作为知识存储中心的机制理解，通过选择性更新低影响权重来植入任务特定知识，同时保护预训练能力。其主要步骤如下：

分析阶段：引入知识向量归因（KVA）技术，基于集成梯度（Integrated Gradients）计算每个知识向量对通用任务的贡献度，使用MMLU基准数据集评估FFN层中各节点的贡献。
选择阶段：提出层平衡策略（Layer-Balanced Strategy），在每层中均匀分配可训练参数，选择低贡献度的知识向量作为‘植入槽’，避免破坏模型的层次知识结构。
植入阶段：仅更新选定的低贡献权重（W_down矩阵中的子集），保持其他参数冻结，以植入任务特定知识，同时可与LoRA等低秩分解技术结合。 批判性思考：KVA的计算复杂度较高（例如在Llama3.1-8B模型上每个样本需16.14秒），且仅在MMLU数据集上测试，可能无法完全代表所有通用任务的知识分布；层平衡策略虽然避免了层次破坏，但可能限制了某些关键层的适应能力，导致任务性能提升受限。

Experiment

实验在两个实际任务上评估LoKI的效果：LB Reranker数据集（用于信息检索）和ToolACE Function-Calling数据集（用于函数调用能力）。

数据集与设置：LB Reranker实验基于Qwen2.5-0.5B-Instruct模型，ToolACE实验基于Llama3.1-8B-Instruct模型，使用多个基准（如TriviaQA、GSM8K等）评估通用能力保留。
结果：在LB Reranker任务中，LoKI（q=30）在BEIR基准上的平均性能比全参数微调高0.54%，且通用能力下降仅0.46%，远低于全参数微调的84.13%；在ToolACE任务中，LoKI（q=30）整体准确率达58.93%，超越LoRA基线（58.32%），通用能力下降仅1.23%，远低于LoRA的16.11%。
分析：实验设置较为合理，涵盖了检索和工具使用两种现实场景，且通过多个基准全面评估了CF问题。然而，参数比例（q）增加时的性能提升非线性，q=20到q=30的增益有限，可能表明方法存在饱和点；此外，与LoRA结合（LoKI*）时任务性能有所下降，显示整合其他PEFT方法的潜力未完全发挥。实验仅限于两种模型，未在更多架构或任务上验证泛化性。

Further Thoughts

LoKI提供了一个有趣的视角，将Transformer的知识存储机制与PEFT结合，但其KVA技术的高计算成本可能限制其在大规模模型或资源受限环境中的应用。未来可以探索更高效的知识归因方法，例如基于稀疏激活或近似梯度的技术。此外，层平衡策略虽然保护了知识层次，但是否会因均匀分配而忽略某些层在特定任务中的关键作用，值得进一步研究。另一个思考方向是LoKI与其他PEFT方法的协同潜力，例如与LoRA结合时参数量显著减少，但性能有所下降，这提示我们可能需要设计更精细的混合策略来平衡效率和效果。跨领域对比也可能有启发，例如在计算机视觉领域，类似的知识保护策略是否能应用于Vision Transformer的微调？这些问题值得后续探索。