Knowledge Grafting of Large Language Models

GraftLLM提出了一种通过模块感知压缩生成SkillPack的方法，实现大型语言模型间高效跨能力转移、知识融合和无遗忘持续学习，并在多个基准测试中显著优于现有方法。

Large Language Model, Continual Learning, Parameter-Efficient Fine-Tuning, Knowledge Fusion, Model Compression

Guodong Du, Xuanning Zhou, Junlin Li, Zhuo Li, Zesheng Shi, Wanyu Lin, Ho-Kin Tang, Xiucheng Li, Fangming Liu, Wenya Wang, Min Zhang, Jing Li

Harbin Institute of Technology, Shenzhen, China, The Hong Kong Polytechnic University, Nanyang Technological University

Generated by grok-3

Background Problem

大型语言模型（LLMs）的跨能力转移是当前研究的一个关键挑战，涉及多任务融合、模型压缩和持续学习等应用场景。现有方法（如知识蒸馏和参数高效微调PEFT）在处理大型异构模型时存在局限性：知识蒸馏常忽略目标模型的固有能力，全参数微调易导致灾难性遗忘，而PEFT方法（如LoRA）在从源模型获取任务知识方面表现不佳。为解决这些问题，论文提出了GraftLLM，旨在通过将源模型能力以目标模型+SkillPack的形式存储，实现高效的知识转移、融合和无遗忘持续学习。

Method

GraftLLM的核心思想是将源模型（Msrc）的能力通过跨能力转移整合到目标模型（Mtgt），并将任务特定的参数更新压缩为轻量化的SkillPack。具体步骤如下：

跨能力转移：采用两阶段训练流程，首先通过监督微调（SFT）减少源模型与目标模型的分布差异，优化负对数似然损失 $\mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(x_i, y_i)} \left[ \log p_{\theta}(y_i, x_i) \right]$ ；随后通过直接偏好优化（DPO）进一步对齐模型，基于偏好对（yw, yl）优化损失 $\mathcal{L}_{\text{DPO}}$ 。
SkillPack生成：计算目标模型更新后的参数差 $\Delta \theta = \theta_{\text{tgt}}^* - \theta_{\text{tgt}}$ ，并采用模块感知的自适应压缩策略，根据模块特性（如嵌入层、MLP模块、注意力模块）选择不同的压缩方法，包括幅度修剪、低秩分解（SVD）和混合精度量化，最终生成压缩后的SkillPack $\widehat{\Delta \theta}$ 。
知识融合与持续学习：通过路由机制 $\mathcal{R}$ 将多个SkillPack整合到目标模型中，支持异构模型融合；同时通过任务自适应实例化机制选择性激活任务相关的SkillPack子集，避免灾难性遗忘。 批判性分析：虽然SkillPack的设计在理论上具有模块化和可转移性，但其压缩策略对经验性超参数（如秩、量化精度）的依赖可能导致在不同任务或模型上的性能不稳定。此外，方法未解决推理效率问题，重建完整模型参数的过程增加了部署开销，限制了其在实时应用中的潜力。

Experiment

实验从三个方面验证了GraftLLM的有效性：

知识转移与压缩：以LLaMA3.1-8B-Instruct为目标模型，从Qwen-2.5-72B-Instruct等源模型中提取能力，在SFT和DPO设置下，GraftLLM在通用任务和数学任务（如GSM8K、MATH）上显著优于PEFT方法（如LoRA）和Twin-Merging，尤其在复杂的DPO场景中接近全参数微调的性能。
知识融合：在显式和隐式异构模型融合场景中，针对10个基准测试（如MMLU、AlpacaEval 2.0），GraftLLM在参数效率和性能上均优于FuseLLM、Task Arithmetic等方法。例如，在MT-Bench上，GraftLLM以仅9.2B参数实现了7.70的平均得分，超越了部分72B源模型。
无遗忘持续学习：在持续学习场景中，GraftLLM在代码和数学任务上平均性能提升2.1%，相比Model Grafting和Model Tailor有效缓解了灾难性遗忘。 批判性分析：实验设置覆盖了多个场景，数据和模型选择较为全面，但基线方法的参数配置可能未充分优化（如LoRA的秩设置），可能导致对比结果对GraftLLM有利。此外，实验未充分探讨方法在高压缩比或低质量SFT/DPO数据下的鲁棒性，限制了结果的普适性。

Further Thoughts

GraftLLM提供了一个有趣的视角，通过SkillPack实现知识的模块化存储和转移，但其推理效率问题和对超参数的依赖值得进一步探索。未来的改进方向可以包括：1）结合自动化超参数优化技术（如贝叶斯优化）来动态选择压缩策略，减少人工干预；2）探索与MoE（Mixture of Experts）架构的结合，通过层级自适应路由机制提升推理效率；3）与其他领域的研究（如联邦学习）联系起来，SkillPack可以作为一种隐私保护的知识载体，用于跨机构模型能力的共享，而无需暴露完整模型参数。此外，考虑到其对SFT/DPO质量的依赖，是否可以通过自监督学习或合成数据生成进一步降低对高质量训练数据的依赖，也是一个值得研究的课题。