Skip to content
Go back 2505.23859 arXiv logo

Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration

Published:  at  11:28 AM
89.30 🤔

本文提出逐层最优任务向量合并(LOT Merging)方法,通过最小化特征漂移优化模型合并过程,在视觉和视觉-语言任务上显著优于无训练基线方法,平均准确率提升高达4.4%。

Transformer, Representation Learning, Multimodal Systems, Efficiency

Wenju Sun, Qingyong Li, Wen Wang, Yang Liu, Yangli-ao Geng, Boyang Li

北京交通大学大数据与人工智能交通重点实验室, 南洋理工大学计算与数据科学学院

Generated by grok-3

Background Problem

随着预训练基础模型在下游任务上的广泛应用,针对不同任务微调的模型数量激增,导致存储和维护成本显著增加。模型合并(Model Merging)作为一种有效的解决方案,旨在将多个任务特定的微调模型整合为一个统一的模型,同时尽量减少性能下降。现有的方法主要从参数差异或任务损失的角度优化合并过程,但参数级方法与性能上界存在较大差距,而任务损失方法需要昂贵的二次训练。作者观察到性能下降与特征漂移(即模型合并导致相同样本特征表示的差异)密切相关,特别是在网络深度增加时特征漂移被放大,因此提出从特征漂移的角度解决模型合并问题。

Method

作者提出了逐层最优任务向量合并(Layer-wise Optimal Task Vector Merging, LOT Merging)方法,核心思想是通过逐层最小化任务特定专家模型与合并模型之间的特征漂移来实现高效的模型整合。具体步骤如下:

批判性思考:虽然方法在理论上优雅且计算高效,但其依赖于少量样本提取特征,可能对样本质量和代表性敏感,论文未充分探讨这一潜在局限性。此外,闭式解的推导基于特征漂移的平方误差最小化,但未考虑任务间特征空间的复杂依赖关系,可能在任务冲突严重时效果受限。

Experiment

作者在视觉和视觉-语言任务上进行了广泛实验,具体设置如下:

评价:实验设置较为全面,涵盖了多种任务和模型架构,样本数量和权重敏感性分析增强了结果的可信度。然而,与压缩方法(如WEMOE、EMR-Merging)相比,LOT Merging的平均准确率仍有差距(例如在ViT-B/32上落后约6-7%),这表明其在高性能场景下的竞争力有限。此外,实验结果显示性能提升在不同任务间不完全一致(例如在某些数据集上不如Fisher Merging),可能反映出方法对任务特异性的适应性不足。总体而言,实验结果支持了方法的有效性,但未完全达到作者声称的‘显著优于’所有基线的程度,尤其是在与需要训练的方法对比时。

Further Thoughts

LOT Merging提供了一个从特征漂移视角解决模型合并问题的新思路,特别是在资源受限场景下,其无训练特性和对少量样本的依赖性使其具有实际应用潜力。然而,方法对特征提取阶段样本质量的潜在依赖性值得进一步探索,例如在样本分布偏倚或噪声较大的情况下,特征漂移估计的准确性可能下降。此外,论文中提到的特征漂移随网络深度增加而放大的现象,与深度网络中梯度消失或爆炸问题有一定关联,未来可以结合梯度分析进一步优化逐层合并策略。另一个有趣的方向是探索LOT Merging与其他领域(如联邦学习)的结合,通过逐层特征漂移最小化解决分布式模型聚合中的知识冲突问题,这可能为隐私保护场景下的多任务学习提供新思路。



Previous Post
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
Next Post
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models