本文提出自适应投影梯度下降(DOGE)方法,通过数据无关优化目标和共享子空间构建,将多任务模型合并建模为约束优化问题,在视觉和NLP任务上显著提升性能并展现出优越的泛化能力。
Multi-Task Learning, Model Merging, Parameter Optimization, Shared Subspace, Data-Free Methods, Adaptive Coefficients
Yongxian Wei, Anke Tang, Li Shen, Zixuan Hu, Chun Yuan, Xiaochun Cao
清华大学, 武汉大学, 中山大学深圳校区, 南洋理工大学
Generated by grok-3
Background Problem
随着预训练基础模型的广泛应用,针对下游任务的微调成为主流,但独立部署多个微调模型会增加存储成本,而传统多任务学习(MTL)需要同时访问多个任务数据集,带来训练开销和隐私风险。模型合并(Model Merging)作为一种无需原始数据的多任务学习方法,受到越来越多的关注。然而,现有方法(如Task Arithmetic和AdaMerging)在缓解任务冲突时,往往会丢失对性能至关重要的任务特定信息,未能实现合并模型在各个任务上接近单个任务模型性能的根本目标。本文旨在解决这一核心问题,通过重新思考模型合并,提出一种新的优化框架,缓解任务冲突并保留共享知识。
Method
本文提出了一种自适应投影梯度下降(DOGE)方法,将模型合并建模为一个约束优化问题,目标是最小化合并模型与单个任务模型之间的性能差距,同时约束共享知识的保留。具体方法如下:
- 数据无关目标:通过泰勒展开近似任务损失,构建一个无需数据的优化目标,引入修改向量∆来调整任务向量,缓解任务冲突。
- 共享子空间优化:基于任务向量构建共享子空间(通过SVD分解提取主要成分),将梯度投影到与共享子空间正交的方向进行优化,确保保留共享知识的同时减少任务间差距。
- 任务感知的合并系数:提出一种无需训练的任务感知合并系数λ,通过任务向量的范数自适应调整,避免单一任务的主导影响。
批判性思考:数据无关目标依赖于线性假设(Neural Tangent Kernel),在任务向量偏离线性时可能导致近似不准确;共享子空间的构建对任务向量的分布敏感,可能对某些任务(如视觉表征差异大的任务)效果有限。
Experiment
实验在视觉任务(使用ViT-B/32和ViT-L/14模型,涵盖SUN397、Stanford Cars等8个数据集)和NLP任务(使用Flan-T5-base和Flan-T5-large模型,涵盖GLUE基准的8个任务)上进行,设置了数据无关和测试时适应(TTA)两类基线。结果显示:
- 性能提升:在ViT-B/32上,DOGE结合Task Arithmetic(TA)将平均准确率从69.1%提升至80.7%,结合AdaMerging(AM)从80.1%提升至85.9%;在Flan-T5-large上,数据无关方法达到88.0%,接近单个模型的89.6%。
- 泛化与鲁棒性:在未见任务和分布外测试集上,DOGE表现出优于TTA方法的泛化能力(如未见任务平均准确率提升2.3%)。
- 消融研究:各模块(∆优化、共享子空间、任务感知λ)均对性能有贡献,其中∆优化和共享子空间最为关键,去除后性能分别下降8.8%和3.5%(视觉任务)。
- 实验设置合理性:数据集和模型选择覆盖了多种任务和架构,基线对比全面(包括TA、Ties-Merging、AdaMerging等),但对某些任务(如SVHN)性能提升有限,可能是由于共享子空间未能充分捕捉任务特定特征。
批判性思考:虽然结果显示出显著改进,但部分任务性能仍远低于单个模型,表明方法在任务冲突严重时仍有局限;此外,实验未充分探讨方法在大规模任务数量下的表现,可能存在扩展性问题。
Further Thoughts
本文提出的共享子空间优化思路为多任务学习提供了一个有趣的视角,特别是在数据不可用的场景下具有实际意义。然而,共享子空间的构建依赖于SVD分解,可能在任务数量极多或任务向量分布不均时引入噪声,未来可以探索基于任务相关性加权的子空间构建方法。此外,方法在某些任务(如SVHN)上性能提升有限,可能是因为视觉表征差异过大,这提示我们是否可以结合多模态学习中的表征对齐技术,进一步优化任务间的共享知识提取。另一个值得思考的方向是方法在大规模模型合并中的应用,例如在合并数百个任务模型时,计算开销和子空间构建的稳定性如何保证?这可能需要与联邦学习或分布式优化技术结合,以提升实际部署的可行性。