Skip to content
Go back 2505.23117 arXiv logo

Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking

Published:  at  11:30 AM
89.89 🤔

本文提出Decom-Renorm-Merge(DRM)方法,通过奇异值分解和重归一化构建共享表示空间以合并多任务模型权重,在视觉和语言任务上显著优于现有方法。

Model Merging, Multitask Learning, Representation Learning, Parameter-Efficient Fine-Tuning, Efficiency

Yuatyong Chaichana, Thanapat Trachu, Peerat Limkonchotiwat, Konpat Preechakul, Tirasan Khandhawit, Ekapol Chuangsuwanich

Chulalongkorn University, AI Singapore, UC Berkeley, Mahidol University

Generated by grok-3

Background Problem

在大型模型训练的时代,多任务学习旨在让模型具备人类般的通用能力,但获取高质量训练数据(尤其是在医学、法律等领域)受限于隐私和成本问题,导致传统多任务训练成本高昂且试错困难。模型合并作为一种替代方案,通过将独立微调的模型融合成一个多任务模型,避免了从头训练的巨大计算开销。然而,现有合并方法(如TIES Merging)假设权重矩阵相同位置具有相同功能,忽略了微调后神经元特征排列可能发生变化及神经元多义性(Polysemanticity)的问题,导致直接逐项合并效果不佳。本文提出了一种新方法,试图通过构建共享表示空间解决这一核心问题。

Method

本文提出了Decom-Renorm-Merge(DRM)方法,核心思想是通过奇异值分解(SVD)将不同任务的权重增量(Weight Delta)分解并协调到一个共享表示空间中进行合并,而非直接在原始参数空间操作。具体步骤如下:

批判性思考:虽然DRM方法在理论上通过共享空间解决了特征排列不一致的问题,但其依赖SVD分解和重归一化的过程可能对计算资源需求较高,尤其是在处理大型模型时。此外,重归一化步骤虽然被证明重要,但其对不同模型架构和任务的适应性未被充分探讨,可能存在潜在的不稳定性。

Experiment

实验在多种模型架构和任务上验证了DRM方法的有效性,具体设置如下:

Further Thoughts

DRM方法通过共享表示空间解决模型合并中的特征排列不一致问题,这一思路启发我们思考是否可以将类似的空间对齐思想应用于其他领域,如联邦学习中的模型聚合或跨模态模型的知识融合。特别是,DRM对重归一化的强调可能与大型语言模型中出现的权重分布不均问题相关,未来可以探索是否通过类似技术优化模型的预训练或微调过程。此外,论文中DRM-V和DRM-H在不同场景下的表现差异提示我们,模型合并可能需要根据具体架构或任务特性自适应选择合并方向(水平或垂直),这可能是一个值得深入研究的方向。另一个潜在问题是计算成本:随着模型规模和任务数量的增加,SVD分解和重归一化的计算开销可能成为瓶颈,是否可以通过近似分解或增量更新等技术优化值得进一步探索。



Previous Post
Scalable Model Merging with Progressive Layer-wise Distillation
Next Post
Large Vocabulary Size Improves Large Language Models