Skip to content
Go back 2502.04959 arXiv logo

No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Published:  at  11:25 AM
87.18 🤔

本文提出了一种等向性模型合并框架,通过展平任务矩阵奇异值谱并结合公共与任务特定子空间,显著提升了多任务模型的性能,在视觉和语言任务上达到了最先进的合并效果。

Foundation Model, Fine-tuning, Multimodal Systems, Representation Learning

Daniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer

Warsaw University of Technology, Poland, IDEAS NCBR, Warsaw, Poland, University of Florence, Italy, NASK - PIB, National Research Institute, Warsaw, Poland, Gdansk University of Technology, Poland, IDEAS Research Center, Warsaw, Poland, Computer Vision Center, Barcelona, Spain, Universitat Autonoma de Barcelona, Spain

Generated by grok-3

Background Problem

预训练模型是现代机器学习系统的基石,但将其微调为特定任务的专家模型后,如何将多个任务特定模型合并为一个多任务模型仍是一个挑战。现有的模型合并方法(如任务算术)在合并后性能与单任务模型之间存在显著差距。本文从任务矩阵(即微调权重与预训练权重的差值)的子空间对齐特性入手,研究了影响合并效果的关键因素,旨在设计一种新的合并技术,平衡不同任务在权重空间中的方向表示,缩小性能差距。

Method

本文提出了等向性模型合并框架,包含两种主要方法:

批判性思考:虽然方法创新性较强,但公共子空间依赖任务算术可能导致次优结果,且任务特定子空间的分配方式(均匀分配剩余空间)可能未充分考虑任务间的语义差异。此外,方法未对不同层级的权重矩阵进行差异化处理,可能忽略了网络层间的重要性差异。

Experiment

实验在视觉和语言任务上展开,覆盖了多种模型规模和任务数量:

批判性思考:实验结果总体上支持了作者的假设,但数据集选择可能存在偏倚(例如视觉任务中部分数据集语义高度相关),可能夸大了对齐度与性能的相关性。此外,实验未充分探讨方法在极端任务不平衡场景下的表现,限制了结果的普适性。

Further Thoughts

本文提出的子空间对齐概念和等向性合并方法为模型合并领域提供了新的视角,特别是在多任务学习和模型压缩领域有潜在应用价值。进一步思考,是否可以通过任务间的语义相似性动态调整公共和任务特定子空间的大小,而非均匀分配?这可能更贴合实际任务分布。此外,结合最近的研究(如基于梯度对齐的合并方法),是否可以将子空间对齐与梯度信息结合,进一步减少任务间的干扰?另一个有趣的方向是探索等向性合并在联邦学习中的应用,特别是在客户端模型权重差异较大的场景下,是否能通过类似方法提升全局模型性能。这些方向值得后续研究深入探讨。



Previous Post
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective
Next Post
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging