本文提出了一种等向性模型合并框架,通过展平任务矩阵奇异值谱并结合公共与任务特定子空间,显著提升了多任务模型的性能,在视觉和语言任务上达到了最先进的合并效果。
Foundation Model, Fine-tuning, Multimodal Systems, Representation Learning
Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
Warsaw University of Technology, Poland, IDEAS NCBR, Warsaw, Poland, University of Florence, Italy, NASK - PIB, National Research Institute, Warsaw, Poland, Gdansk University of Technology, Poland, IDEAS Research Center, Warsaw, Poland, Computer Vision Center, Barcelona, Spain, Universitat Autonoma de Barcelona, Spain
Generated by grok-3
Background Problem
预训练模型是现代机器学习系统的基石,但将其微调为特定任务的专家模型后,如何将多个任务特定模型合并为一个多任务模型仍是一个挑战。现有的模型合并方法(如任务算术)在合并后性能与单任务模型之间存在显著差距。本文从任务矩阵(即微调权重与预训练权重的差值)的子空间对齐特性入手,研究了影响合并效果的关键因素,旨在设计一种新的合并技术,平衡不同任务在权重空间中的方向表示,缩小性能差距。
Method
本文提出了等向性模型合并框架,包含两种主要方法:
- Iso-C(等向性公共子空间合并):通过对任务算术得到的任务矩阵总和进行奇异值分解(SVD),将奇异值谱展平为平均值(即等向性缩放),以减少对主导方向的偏倚,提升任务矩阵与合并矩阵的对齐度(通过子空间对齐比率SAR衡量)。具体步骤包括计算任务矩阵总和、进行SVD分解、用平均奇异值重建矩阵。
- Iso-CTS(等向性公共与任务特定子空间合并):在Iso-C基础上,进一步引入任务特定子空间以解决任务数量增加时部分任务被低估的问题。具体方法是保留公共子空间的前k个主导奇异向量,将剩余空间分配给各任务的特定方向,通过正交投影和白化操作确保方向正交性,最后同样应用等向性缩放重建合并矩阵。
批判性思考:虽然方法创新性较强,但公共子空间依赖任务算术可能导致次优结果,且任务特定子空间的分配方式(均匀分配剩余空间)可能未充分考虑任务间的语义差异。此外,方法未对不同层级的权重矩阵进行差异化处理,可能忽略了网络层间的重要性差异。
Experiment
实验在视觉和语言任务上展开,覆盖了多种模型规模和任务数量:
- 视觉任务(全微调):基于CLIP模型(ViT-B/32, ViT-B/16, ViT-L/14),在8、14、20个任务数据集上测试。结果显示Iso-CTS在所有场景下均达到最优性能,尤其在任务数量增加时(20任务)比Iso-C提升高达2.8%的绝对准确率,表明任务特定子空间的作用。实验设置合理,涵盖了不同任务规模和模型复杂度,但对任务多样性(如语义相关性)的影响分析不足。
- 视觉任务(LoRA适配):在低秩适配场景下,Iso-CTS和Iso-C显著优于专为LoRA设计的KnOTS方法,显示出方法的通用性,但未针对低秩结构优化,可能是性能提升的潜在瓶颈。
- 语言任务:基于T5-Large-LM-Adapt模型,在7和8个NLP任务上测试,Iso-C和Iso-CTS均显著优于现有方法,但两者性能差异不大,可能是因为语言任务的公共子空间已足够表示任务特性。
- 消融分析:验证了等向性缩放对对齐度和性能的提升,分析了公共子空间大小对Iso-CTS的影响,显示方法对超参数选择较为鲁棒。
批判性思考:实验结果总体上支持了作者的假设,但数据集选择可能存在偏倚(例如视觉任务中部分数据集语义高度相关),可能夸大了对齐度与性能的相关性。此外,实验未充分探讨方法在极端任务不平衡场景下的表现,限制了结果的普适性。
Further Thoughts
本文提出的子空间对齐概念和等向性合并方法为模型合并领域提供了新的视角,特别是在多任务学习和模型压缩领域有潜在应用价值。进一步思考,是否可以通过任务间的语义相似性动态调整公共和任务特定子空间的大小,而非均匀分配?这可能更贴合实际任务分布。此外,结合最近的研究(如基于梯度对齐的合并方法),是否可以将子空间对齐与梯度信息结合,进一步减少任务间的干扰?另一个有趣的方向是探索等向性合并在联邦学习中的应用,特别是在客户端模型权重差异较大的场景下,是否能通过类似方法提升全局模型性能。这些方向值得后续研究深入探讨。