Skip to content
Go back 2502.15434 arXiv logo

Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation

Published:  at  11:27 AM
91.67 🤔

本文提出Mixup Model Merge (M³) 方法,通过在参数空间中随机线性插值并利用Beta分布采样贡献比例,显著提升了大语言模型合并的性能、分布外鲁棒性和对抗鲁棒性。

Large Language Model, Fine-tuning, Parameter-Efficient Fine-Tuning, Robustness, Efficiency

Yue Zhou, Yi Chang, Yuan Wu

吉林大学人工智能学院, 教育部知识驱动人机智能工程研究中心, 吉林大学未来科学国际中心

Generated by grok-3

Background Problem

在自然语言处理(NLP)领域,大语言模型(LLMs)的出现标志着技术的重大突破,其在多种任务上展现了卓越性能。然而,通过监督微调(SFT)将LLMs适配到特定任务需要大量计算资源和时间。为解决这一问题,模型合并(Model Merging)作为一种高效方法被提出,旨在将多个任务特定的微调模型融合为一个统一的模型,继承各自的能力,而无需额外训练。现有的模型合并方法往往采用固定的或手动预定义的贡献比例,限制了对不同比例组合的探索,进而约束了合并模型的潜力。本文提出了一种新方法,旨在通过随机线性插值策略探索任务特定模型之间的最优贡献比例,以提升合并模型的性能和鲁棒性。

Method

本文提出了Mixup Model Merge (M³) 方法,其核心思想是借鉴Mixup数据增强技术中的随机线性插值策略,将其应用于模型参数空间。具体步骤如下:

批判性思考:虽然M³方法在概念上具有创新性,但其核心依赖于线性插值路径位于低损失盆地的假设,这一假设在论文中仅通过引用已有研究支持,缺乏针对模型合并场景的具体验证。此外,随机采样的Beta分布参数 α\alpha 的选择对结果影响较大,论文中仅通过有限的超参数扫描(7个值)确定,可能未充分探索最优配置,存在一定的随意性。

Experiment

实验基于三个任务特定的微调模型(WizardLM-13B、WizardMath-13B、llama-2-13b-codealpaca),均以Llama-2-13B为预训练基础,分别针对指令跟随、数学推理和代码生成任务。评估数据集包括AlpacaEval、GSM8K、MATH、HumanEval、MBPP等,另有LiveBench和PromptBench用于测试分布外(OOD)和对抗鲁棒性。实验设置中,M³通过扫描Beta分布参数 α\alpha(7个值)采样插值系数,与多种模型合并方法(Average Merging、Task Arithmetic、TIES-Merging、DARE)结合进行对比。

结果分析

批判性思考:实验结果虽然显示出一定的改进,但部分提升幅度较小,且未全面分析未改进的原因,可能是由于任务冲突或模型微调不足。此外,实验设置过于狭窄,未能覆盖更广泛的模型架构和任务类型,限制了结果的说服力。

Further Thoughts

M³方法在模型合并中引入随机线性插值的思路具有一定启发性,但其局限性也值得深入思考。首先,论文中提到的线性插值路径位于低损失盆地的理论依据是否适用于所有模型合并场景仍需进一步验证,尤其是在异构模型或不同预训练基础模型的情况下,可能存在显著的性能障碍。其次,M³目前仅限于两模型合并,如何扩展到多模型合并是一个有趣且具有挑战性的方向,或许可以借鉴多维插值或分层合并策略。此外,M³方法与模型稀疏化技术(如DARE)的结合表现出协同效应,这提示我们可以在模型合并中探索更多参数空间优化技术,例如结合低秩适配(Low-Rank Adaptation)或剪枝策略,以进一步提升效率和性能。最后,考虑到模型合并在实际应用中的重要性(如降低计算成本、提升多任务能力),未来研究可以探索M³方法在跨领域任务(如结合NLP与视觉任务的模型)中的适用性,以及其对模型对齐(如RLHF模型合并)的影响,以解决所谓的‘对齐税’问题。



Previous Post
Contrastive Learning for Task-Independent SpeechLLM-Pretraining
Next Post
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning