Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking

本文提出Decom-Renorm-Merge（DRM）方法，通过奇异值分解和重归一化构建共享表示空间以合并多任务模型权重，在视觉和语言任务上显著优于现有方法。

Model Merging, Multitask Learning, Representation Learning, Parameter-Efficient Fine-Tuning, Efficiency

Yuatyong Chaichana, Thanapat Trachu, Peerat Limkonchotiwat, Konpat Preechakul, Tirasan Khandhawit, Ekapol Chuangsuwanich

Chulalongkorn University, AI Singapore, UC Berkeley, Mahidol University

Generated by grok-3

Background Problem

在大型模型训练的时代，多任务学习旨在让模型具备人类般的通用能力，但获取高质量训练数据（尤其是在医学、法律等领域）受限于隐私和成本问题，导致传统多任务训练成本高昂且试错困难。模型合并作为一种替代方案，通过将独立微调的模型融合成一个多任务模型，避免了从头训练的巨大计算开销。然而，现有合并方法（如TIES Merging）假设权重矩阵相同位置具有相同功能，忽略了微调后神经元特征排列可能发生变化及神经元多义性（Polysemanticity）的问题，导致直接逐项合并效果不佳。本文提出了一种新方法，试图通过构建共享表示空间解决这一核心问题。

Method

本文提出了Decom-Renorm-Merge（DRM）方法，核心思想是通过奇异值分解（SVD）将不同任务的权重增量（Weight Delta）分解并协调到一个共享表示空间中进行合并，而非直接在原始参数空间操作。具体步骤如下：

联合分解：将各任务的权重增量矩阵水平（或垂直）拼接后，使用SVD分解为共享基底U、奇异值矩阵Σ和任务特定的右奇异向量矩阵V^T。
分割与重归一化：将V^T按任务分割为V_t^T，由于分割后各行向量失去单位长度属性，对每个任务的V_t^T行向量进行重归一化，并将原始范数重新分配到奇异值矩阵中。这一步骤被认为是稳定合并的关键。
剪枝与干扰减少：在重归一化后的空间中，保留每个任务V_t^T中前k%（默认20%）的高幅度条目，剔除其余部分；随后通过符号选举（Sign Election）解决符号冲突，并使用不相交平均（Disjoint Averaging）合并各任务权重。
重建：将合并后的表示转换回原始参数空间，得到最终的多任务模型权重。

批判性思考：虽然DRM方法在理论上通过共享空间解决了特征排列不一致的问题，但其依赖SVD分解和重归一化的过程可能对计算资源需求较高，尤其是在处理大型模型时。此外，重归一化步骤虽然被证明重要，但其对不同模型架构和任务的适应性未被充分探讨，可能存在潜在的不稳定性。

Experiment

实验在多种模型架构和任务上验证了DRM方法的有效性，具体设置如下：

数据集与模型：包括视觉模型（ViT-B/32, ViT-L/14，涉及8个图像分类数据集如MNIST, Cars）、语言模型（DeBERTa-Base, T5-Base, T5-Large，涉及6个自然语言理解任务如QASC, PAWS）以及低秩适配（LoRA）的Llama3.1-8B（涉及5个GLUE任务如MNLI, SST2）。
实验设计：对比了DRM（水平DRM-H和垂直DRM-V）与基线方法（Simple Averaging, Task Arithmetic, TIES Merging, DARE-TIES），在有无验证集调参的情况下评估分类准确率；此外，测试了不同任务数量下的性能表现及重归一化步骤的消融影响。
结果：DRM-H在ViT-B/32和ViT-L/14上分别比最强基线提升5.0%和1.9%（无验证集），在DeBERTa-Base上提升9.3%，在LoRA适配的Llama3.1-8B上提升1.9%；有验证集调参时提升幅度更大。DRM在任务数量增加时表现出更好的性能保持能力。重归一化消融实验显示其对性能提升至关重要（如DeBERTa-Base上提升8.8%）。
分析与批判：实验设置覆盖了多种架构和任务，设计较为全面，但数据集和任务选择可能偏向特定领域，未充分代表更广泛的应用场景（如生成任务或跨模态任务）。此外，DRM-V在LoRA适配的Llama3.1-8B上表现优于DRM-H（与之前实验相反），论文未深入解释这一现象，可能暗示方法对特定模型或任务的敏感性。结果虽然显示出改进，但与单独微调模型相比仍有较大差距（如ViT-B/32微调为90.8%，DRM-H合并为77.5%），表明合并方法仍需优化以减少性能损失。

Further Thoughts

DRM方法通过共享表示空间解决模型合并中的特征排列不一致问题，这一思路启发我们思考是否可以将类似的空间对齐思想应用于其他领域，如联邦学习中的模型聚合或跨模态模型的知识融合。特别是，DRM对重归一化的强调可能与大型语言模型中出现的权重分布不均问题相关，未来可以探索是否通过类似技术优化模型的预训练或微调过程。此外，论文中DRM-V和DRM-H在不同场景下的表现差异提示我们，模型合并可能需要根据具体架构或任务特性自适应选择合并方向（水平或垂直），这可能是一个值得深入研究的方向。另一个潜在问题是计算成本：随着模型规模和任务数量的增加，SVD分解和重归一化的计算开销可能成为瓶颈，是否可以通过近似分解或增量更新等技术优化值得进一步探索。