CAT Merging提出了一种无需训练的多任务模型合并框架,通过参数特定的修剪策略有效减少知识冲突,在视觉、语言和视觉-语言任务上显著提升了合并模型性能,平均准确率分别提高2.5%(ViT-B/32)和2.0%(ViT-L/14)。
Multi-Task Learning, Model Merging, Knowledge Conflict, Parameter Trimming, Transformer
Wenju Sun, Qingyong Li, Yangli-ao Geng, Boyang Li
北京交通大学大数据与人工智能交通教育部重点实验室, 新加坡南洋理工大学计算与数据科学学院
Generated by grok-3
Background Problem
随着下游应用数量的增加,管理和部署大量微调模型带来了显著的成本和操作复杂性。多任务模型合并作为一种解决方案,旨在将多个专家模型整合为一个统一的模型,而无需额外训练。然而,现有的方法(如Task Arithmetic)在合并过程中常因任务向量之间的知识冲突导致性能下降。知识冲突是指任务向量在参数空间中的不平衡或矛盾,导致合并模型在某些任务上的表现受损。CAT Merging旨在解决这一关键问题,通过选择性修剪任务向量中的冲突部分,在不牺牲任务特定知识的前提下减少任务间的干扰。
Method
CAT Merging(Conflict-Aware Task Merging)是一种无需训练的多任务模型合并框架,其核心思想是通过层级化的特征分析,识别并修剪任务向量中容易引发冲突的成分,以减少知识冲突,同时保留任务特定知识。其主要步骤如下:
- 任务向量定义:任务向量定义为微调模型与预训练模型参数之间的差值,表示特定任务的知识。
- 冲突量化:通过理论分析(如Lipschitz连续性假设),将知识冲突分解为层级特征偏移,量化每一层参数扰动对任务损失的影响。
- 参数特定修剪策略:针对不同类型参数设计定制化修剪操作:
- 线性权重修剪:通过投影操作,利用移除基(Removal Basis)去除其他任务向量中与当前任务冲突的部分,优化目标是平衡冲突减少和知识保留(通过公式(8)中的损失函数实现)。
- 归一化缩放参数修剪:采用二进制掩码(Binary Mask),选择性地移除对当前任务干扰大的缩放参数成分。
- 偏移参数修剪:类似缩放参数,使用掩码移除冲突成分。
- 合并过程:利用少量无标签样本进行前向传播,收集层级输入特征,计算修剪基或掩码,调整任务向量后进行合并。
关键问题与批评:尽管方法在理论上创新,但修剪策略依赖于少量样本计算特征偏移,可能在样本不足或分布偏差时导致修剪不准确。此外,超参数(如修剪维度c和权衡参数λ)的选择对结果影响较大,论文未提供充分的调优指导,实际应用中可能面临困难。
Experiment
实验在视觉、语言和视觉-语言任务上进行,数据集包括8个视觉分类数据集(如SUN397、MNST)、8个NLP任务(GLUE基准)和6个视觉-语言任务(如COCO Caption)。使用的模型包括CLIP的ViT-B/32和ViT-L/14、RoBERTa和BLIP。实验设置遵循Task Arithmetic的实现,比较了多种无训练合并方法(如Weight Averaging、Fisher Merging、Ties-Merging等)。
- 结果:CAT Merging在ViT-B/32和ViT-L/14上分别取得了78.3%和89.6%的平均准确率,相比最先进的PCB Merging分别提升了2.5%和2.0%。在NLP任务中,CAT Merging在8个任务中的6个上表现最佳,平均得分62.56%;在视觉-语言任务中,6个任务中的5个上表现最佳。
- 消融研究:验证了线性权重、缩放和偏移参数修剪的重要性,移除任一修剪策略均导致性能下降。
- 敏感性分析:CAT Merging对样本数量不敏感,即使每任务仅1个样本仍表现良好;对合并权重α的稳定性也优于Task Arithmetic。
评价与批评:实验结果表明CAT Merging在减少知识冲突方面有效,性能提升明显。然而,实验设置主要集中在相对标准的任务和模型上,缺乏对高冲突任务组合或非Transformer架构的测试,可能限制方法的普适性。此外,样本数量敏感性分析虽显示鲁棒性,但未探讨样本分布偏差的影响,可能低估了实际应用中的风险。总体而言,实验设计较为全面,但深度和广度仍有提升空间。
Further Thoughts
CAT Merging提供了一种有前景的解决方案来解决多任务模型合并中的知识冲突问题,但其方法依赖于特征层面的冲突分析,这在更复杂的模型(如深度异构网络)或任务高度冲突的场景中可能面临挑战。未来可以探索结合任务相关性分析或动态权重调整来进一步优化修剪策略。此外,CAT Merging与参数高效微调方法(如LoRA)的结合可能是一个有趣的方向,通过在低秩空间中进行冲突修剪,或许能进一步降低计算成本并提升合并效率。另一个值得思考的点是,知识冲突的量化是否可以引入更多上下文信息,例如任务间的语义相关性或数据分布差异,这可能有助于更精准地识别冲突源头。总之,CAT Merging为多任务学习和模型合并领域提供了一个新的视角,但其理论和实践边界仍需进一步探索和验证。