MergeBench: A Benchmark for Merging Domain-Specialized LLMs

本文提出MergeBench，一个针对领域专精大型语言模型合并的全面基准测试框架，基于Llama和Gemma模型（2B-9B）评估八种合并方法，揭示了合并在大模型上的优越性、稀疏化和系数调整对知识保留的重要性，并提供了算法选择的实用指南。

Large Language Model, Fine-tuning, Multi-Agent, Efficiency, Robustness

Yifei He, Siqi Zeng, Yuzheng Hu, Rui Yang, Tong Zhang, Han Zhao

University of Illinois Urbana-Champaign

Generated by grok-3

Background Problem

模型合并（Model Merging）通过参数算术操作将多个领域专精的微调模型组合成一个多任务模型，避免了联合训练和访问所有任务数据的需要，从而显著节省存储和维护成本。然而，现有评估在模型规模和任务多样性上存在局限，难以量化不同合并方法在大规模、领域专精的大型语言模型（LLMs）上的性能。为此，本文提出了MergeBench，一个全面的评估套件，旨在解决模型合并在实际应用中的可扩展性和有效性问题。

Method

MergeBench的核心方法是通过标准化框架评估模型合并算法，具体步骤如下：

任务构建：选择了五个领域任务（指令跟随、数学、多语言理解、编码和安全性），确保任务覆盖广泛且技能重叠最小，聚焦于后训练能力。
模型构建：基于开源模型Llama-3.2-3B、Llama-3.1-8B、Gemma-2-2B和Gemma-2-9B（包括预训练和指令微调版本），通过任务特定微调生成专精模型。
合并方法：评估了八种代表性合并算法，分为两类：一是通过调整合并系数控制任务贡献（如Model Soup、Task Arithmetic、Fisher Merging、RegMean）；二是通过稀疏化任务向量减少干扰（如TIES Merging、DARE、Consensus TA、Localize-and-Stitch）。
评估协议：标准化微调和评估流程，统一数据需求（训练数据和验证数据），并从多任务性能、预训练知识保留（遗忘分析）和运行时效率三个维度进行评估。 批判性思考：虽然方法设计较为全面，但任务选择可能未完全代表现实世界复杂需求，例如长上下文任务被排除在外可能限制了评估的广度。此外，八种方法的覆盖虽广，但部分方法（如Fisher Merging）在LLMs上的适用性存疑，其对参数重要性的近似可能过于简单，未充分捕捉大模型的复杂性。

Experiment

实验基于Llama和Gemma系列模型（2B至9B规模），在五个领域任务上进行，数据集包括GSM8k、MATH、IFEval等（详见论文表2和表3），评估指标为归一化性能（合并模型相对于专精模型的性能比例）、遗忘程度和运行时效率。实验设置旨在模拟现实场景，采用监督微调（SFT）和部分强化学习（如GRPO）生成专精模型，并通过标准化协议比较合并方法。结果显示：

多任务性能：Localize-and-Stitch表现最佳，恢复了90%以上的微调性能，尤其在大模型上；RegMean在小模型上竞争力强，但在大模型上优势减弱；DARE和Fisher Merging表现较差，可能由于随机丢弃和参数重要性估计不足。
模型强度影响：合并在更大规模模型（如8B/9B）和指令微调模型上效果更好，归一化性能超过90%，表明小模型容量瓶颈导致任务干扰更严重。
遗忘分析：合并模型比多任务学习（MTL）更好地保留了基模型知识，稀疏化（如TIES、Localize-and-Stitch）和小系数调整（如Model Soup）有效缓解遗忘，而DARE的随机丢弃效果不佳。
运行时效率：Model Soup最快，无需调参；TIES和DARE因验证成本高而效率最低；Localize-and-Stitch和RegMean在性能与效率间取得较好平衡。 批判性思考：实验设置较为全面，但任务难度和数据平衡性可能影响结果普适性，例如多语言任务的数据量远超其他任务，可能导致合并偏向。此外，运行时成本的评估未充分考虑内存需求（如Localize-and-Stitch的高峰内存使用），这在资源受限环境中可能是关键问题。结果虽符合预期（强基模型上合并更有效），但与MTL的对比显示合并在领域内性能仍有差距，未完全解决任务冲突问题。

Further Thoughts

MergeBench为模型合并研究奠定了重要基础，但其任务设计和实验结果引发了一些深层次思考。首先，合并方法在资源受限或数据不平衡场景（如安全对齐或多语言模型）中的潜力值得进一步探索，特别是在与多任务学习的对比中，能否量化合并在隐私保护或异步开发中的具体优势？其次，论文中提到的计算成本问题可能被低估，尤其是在超参数调优阶段，是否可以通过自适应调优或元学习方法减少这一开销？此外，模型合并在主流LLM开发流程中的定位仍不明朗，例如能否将其应用于模型版本迭代，合并旧版本模型的知识以提升新版本的稳定性？这与持续学习（Continual Learning）领域的研究有潜在联系，可能启发新的模型更新策略。最后，稀疏化策略的效果差异（如TIES优于DARE）提示我们，未来的合并方法设计应更关注参数选择机制的系统性，而非随机性，这可能与神经网络剪枝技术结合，产生更高效的合并算法。