Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation

本文提出Mixup Model Merge (M³) 方法，通过在参数空间中随机线性插值并利用Beta分布采样贡献比例，显著提升了大语言模型合并的性能、分布外鲁棒性和对抗鲁棒性。

Large Language Model, Fine-tuning, Parameter-Efficient Fine-Tuning, Robustness, Efficiency

Yue Zhou, Yi Chang, Yuan Wu

吉林大学人工智能学院, 教育部知识驱动人机智能工程研究中心, 吉林大学未来科学国际中心

Generated by grok-3

Background Problem

在自然语言处理（NLP）领域，大语言模型（LLMs）的出现标志着技术的重大突破，其在多种任务上展现了卓越性能。然而，通过监督微调（SFT）将LLMs适配到特定任务需要大量计算资源和时间。为解决这一问题，模型合并（Model Merging）作为一种高效方法被提出，旨在将多个任务特定的微调模型融合为一个统一的模型，继承各自的能力，而无需额外训练。现有的模型合并方法往往采用固定的或手动预定义的贡献比例，限制了对不同比例组合的探索，进而约束了合并模型的潜力。本文提出了一种新方法，旨在通过随机线性插值策略探索任务特定模型之间的最优贡献比例，以提升合并模型的性能和鲁棒性。

Method

本文提出了Mixup Model Merge (M³) 方法，其核心思想是借鉴Mixup数据增强技术中的随机线性插值策略，将其应用于模型参数空间。具体步骤如下：

参数插值：针对两个从同一预训练模型微调得到的任务特定模型（记为 $\theta_{\text{SFT}}^{t_1}$ 和 $\theta_{\text{SFT}}^{t_2}$ ），通过线性插值生成合并模型 $\theta_M = \lambda_m \theta_{\text{SFT}}^{t_1} + (1 - \lambda_m) \theta_{\text{SFT}}^{t_2}$ ，其中 $\lambda_m \in (0, 1)$ 是插值系数。
随机采样：插值系数 $\lambda_m$ 从Beta分布（ $\lambda_m \sim \text{Beta}(\alpha, \alpha)$ ）中随机采样，通过调整参数 $\alpha$ 控制分布形状，从而平衡探索效率和贡献比例的多样性。
即插即用：M³方法可与现有模型合并技术（如Average Merging、Task Arithmetic、TIES-Merging）结合，通过调整插值系数优化合并效果。

批判性思考：虽然M³方法在概念上具有创新性，但其核心依赖于线性插值路径位于低损失盆地的假设，这一假设在论文中仅通过引用已有研究支持，缺乏针对模型合并场景的具体验证。此外，随机采样的Beta分布参数 $\alpha$ 的选择对结果影响较大，论文中仅通过有限的超参数扫描（7个值）确定，可能未充分探索最优配置，存在一定的随意性。

Experiment

实验基于三个任务特定的微调模型（WizardLM-13B、WizardMath-13B、llama-2-13b-codealpaca），均以Llama-2-13B为预训练基础，分别针对指令跟随、数学推理和代码生成任务。评估数据集包括AlpacaEval、GSM8K、MATH、HumanEval、MBPP等，另有LiveBench和PromptBench用于测试分布外（OOD）和对抗鲁棒性。实验设置中，M³通过扫描Beta分布参数 $\alpha$ （7个值）采样插值系数，与多种模型合并方法（Average Merging、Task Arithmetic、TIES-Merging、DARE）结合进行对比。

结果分析：

性能提升：M³在多个任务和数据集上显著提升了合并模型性能，例如在MBPP数据集上，TIES-Merging结合M³后pass@1分数提升了30.8%。然而，部分数据集（如AlpacaEval的部分组合）未见改进甚至略有下降，作者未深入分析原因。
鲁棒性：M³在OOD和对抗鲁棒性测试中表现出正向效果，例如在LiveBench-TypoFixing上，LM & Code模型结合M³后准确率提升了14%。但论文仅报告现象，缺乏对提升机制的探讨。
实验设计问题：实验仅限于同源模型，缺乏对异构模型的验证，限制了方法的普适性结论。此外，采样次数固定为7次，未能动态调整以确保找到最优插值系数，可能导致结果的不稳定性。

批判性思考：实验结果虽然显示出一定的改进，但部分提升幅度较小，且未全面分析未改进的原因，可能是由于任务冲突或模型微调不足。此外，实验设置过于狭窄，未能覆盖更广泛的模型架构和任务类型，限制了结果的说服力。

Further Thoughts

M³方法在模型合并中引入随机线性插值的思路具有一定启发性，但其局限性也值得深入思考。首先，论文中提到的线性插值路径位于低损失盆地的理论依据是否适用于所有模型合并场景仍需进一步验证，尤其是在异构模型或不同预训练基础模型的情况下，可能存在显著的性能障碍。其次，M³目前仅限于两模型合并，如何扩展到多模型合并是一个有趣且具有挑战性的方向，或许可以借鉴多维插值或分层合并策略。此外，M³方法与模型稀疏化技术（如DARE）的结合表现出协同效应，这提示我们可以在模型合并中探索更多参数空间优化技术，例如结合低秩适配（Low-Rank Adaptation）或剪枝策略，以进一步提升效率和性能。最后，考虑到模型合并在实际应用中的重要性（如降低计算成本、提升多任务能力），未来研究可以探索M³方法在跨领域任务（如结合NLP与视觉任务的模型）中的适用性，以及其对模型对齐（如RLHF模型合并）的影响，以解决所谓的‘对齐税’问题。