Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration

本文提出逐层最优任务向量合并（LOT Merging）方法，通过最小化特征漂移优化模型合并过程，在视觉和视觉-语言任务上显著优于无训练基线方法，平均准确率提升高达4.4%。

Transformer, Representation Learning, Multimodal Systems, Efficiency

Wenju Sun, Qingyong Li, Wen Wang, Yang Liu, Yangli-ao Geng, Boyang Li

北京交通大学大数据与人工智能交通重点实验室, 南洋理工大学计算与数据科学学院

Generated by grok-3

Background Problem

随着预训练基础模型在下游任务上的广泛应用，针对不同任务微调的模型数量激增，导致存储和维护成本显著增加。模型合并（Model Merging）作为一种有效的解决方案，旨在将多个任务特定的微调模型整合为一个统一的模型，同时尽量减少性能下降。现有的方法主要从参数差异或任务损失的角度优化合并过程，但参数级方法与性能上界存在较大差距，而任务损失方法需要昂贵的二次训练。作者观察到性能下降与特征漂移（即模型合并导致相同样本特征表示的差异）密切相关，特别是在网络深度增加时特征漂移被放大，因此提出从特征漂移的角度解决模型合并问题。

Method

作者提出了逐层最优任务向量合并（Layer-wise Optimal Task Vector Merging, LOT Merging）方法，核心思想是通过逐层最小化任务特定专家模型与合并模型之间的特征漂移来实现高效的模型整合。具体步骤如下：

问题建模：将特征漂移定义为合并模型与任务特定模型在每一层特征表示上的差异，并通过平方误差度量，形式化为一个凸二次优化问题（见公式 $T^{l^*} = \underset{T^l}{\arg\min} \sum_{k=1}^K \|f_k^l(W_{\text{pre}} + T^l) - f_k^l(W_k)\|^2$ ）。
闭式解推导：针对Transformer架构中的三种主要操作（矩阵乘法、逐元素乘法、逐元素加法），分别推导出线性层权重、归一化层缩放因子和偏置参数的最优任务向量闭式解。例如，线性层的最优解为 $T^{l^*} = \left(\sum_k X_k^{l^{\top}} X_k^l\right)^{\dagger} \sum_k X_k^{l^{\top}} X_k^l T_k^l$ ，其中 $X_k^l$ 是任务 $k$ 在第 $l$ 层的输入特征。
实现方式：通过少量样本（每任务16-64个）进行前向传播提取特征，然后基于闭式解计算最优任务向量，最后将任务向量以预定义权重 $\lambda$ 整合到预训练模型中（ $W_{\text{mtl}}^{\text{lot}} = W_{\text{pre}} + \lambda T^*$ ）。

批判性思考：虽然方法在理论上优雅且计算高效，但其依赖于少量样本提取特征，可能对样本质量和代表性敏感，论文未充分探讨这一潜在局限性。此外，闭式解的推导基于特征漂移的平方误差最小化，但未考虑任务间特征空间的复杂依赖关系，可能在任务冲突严重时效果受限。

Experiment

作者在视觉和视觉-语言任务上进行了广泛实验，具体设置如下：

数据集：视觉任务包括8个图像分类数据集（如SUN397、MNIST），视觉-语言任务包括6个数据集（如COCO Caption、TextVQA）。
基线方法：对比了多种无训练模型合并方法（如Task Arithmetic、Ties-Merging）和部分需要训练的方法（如AdaMerging）。
模型骨干：视觉任务使用CLIP的ViT-B/32和ViT-L/14，视觉-语言任务使用BLIP模型。
结果：在ViT-B/32上，LOT Merging平均准确率达82.7%，比最先进的无训练方法（CAT Merging）提升4.4%；在ViT-L/14上，平均准确率达90.5%，提升0.9%；在视觉-语言任务中，在5/6任务上表现最佳。敏感性分析显示，样本数量达到16个时性能趋于稳定，权重 $\lambda$ 在1.0-1.5范围内效果较好。

评价：实验设置较为全面，涵盖了多种任务和模型架构，样本数量和权重敏感性分析增强了结果的可信度。然而，与压缩方法（如WEMOE、EMR-Merging）相比，LOT Merging的平均准确率仍有差距（例如在ViT-B/32上落后约6-7%），这表明其在高性能场景下的竞争力有限。此外，实验结果显示性能提升在不同任务间不完全一致（例如在某些数据集上不如Fisher Merging），可能反映出方法对任务特异性的适应性不足。总体而言，实验结果支持了方法的有效性，但未完全达到作者声称的‘显著优于’所有基线的程度，尤其是在与需要训练的方法对比时。

Further Thoughts

LOT Merging提供了一个从特征漂移视角解决模型合并问题的新思路，特别是在资源受限场景下，其无训练特性和对少量样本的依赖性使其具有实际应用潜力。然而，方法对特征提取阶段样本质量的潜在依赖性值得进一步探索，例如在样本分布偏倚或噪声较大的情况下，特征漂移估计的准确性可能下降。此外，论文中提到的特征漂移随网络深度增加而放大的现象，与深度网络中梯度消失或爆炸问题有一定关联，未来可以结合梯度分析进一步优化逐层合并策略。另一个有趣的方向是探索LOT Merging与其他领域（如联邦学习）的结合，通过逐层特征漂移最小化解决分布式模型聚合中的知识冲突问题，这可能为隐私保护场景下的多任务学习提供新思路。