Skip to content
Go back 2505.10833 arXiv logo

MergeBench: A Benchmark for Merging Domain-Specialized LLMs

Published:  at  11:23 AM
90.41 🤔

本文提出MergeBench,一个针对领域专精大型语言模型合并的全面基准测试框架,基于Llama和Gemma模型(2B-9B)评估八种合并方法,揭示了合并在大模型上的优越性、稀疏化和系数调整对知识保留的重要性,并提供了算法选择的实用指南。

Large Language Model, Fine-tuning, Multi-Agent, Efficiency, Robustness

Yifei He, Siqi Zeng, Yuzheng Hu, Rui Yang, Tong Zhang, Han Zhao

University of Illinois Urbana-Champaign

Generated by grok-3

Background Problem

模型合并(Model Merging)通过参数算术操作将多个领域专精的微调模型组合成一个多任务模型,避免了联合训练和访问所有任务数据的需要,从而显著节省存储和维护成本。然而,现有评估在模型规模和任务多样性上存在局限,难以量化不同合并方法在大规模、领域专精的大型语言模型(LLMs)上的性能。为此,本文提出了MergeBench,一个全面的评估套件,旨在解决模型合并在实际应用中的可扩展性和有效性问题。

Method

MergeBench的核心方法是通过标准化框架评估模型合并算法,具体步骤如下:

Experiment

实验基于Llama和Gemma系列模型(2B至9B规模),在五个领域任务上进行,数据集包括GSM8k、MATH、IFEval等(详见论文表2和表3),评估指标为归一化性能(合并模型相对于专精模型的性能比例)、遗忘程度和运行时效率。实验设置旨在模拟现实场景,采用监督微调(SFT)和部分强化学习(如GRPO)生成专精模型,并通过标准化协议比较合并方法。结果显示:

Further Thoughts

MergeBench为模型合并研究奠定了重要基础,但其任务设计和实验结果引发了一些深层次思考。首先,合并方法在资源受限或数据不平衡场景(如安全对齐或多语言模型)中的潜力值得进一步探索,特别是在与多任务学习的对比中,能否量化合并在隐私保护或异步开发中的具体优势?其次,论文中提到的计算成本问题可能被低估,尤其是在超参数调优阶段,是否可以通过自适应调优或元学习方法减少这一开销?此外,模型合并在主流LLM开发流程中的定位仍不明朗,例如能否将其应用于模型版本迭代,合并旧版本模型的知识以提升新版本的稳定性?这与持续学习(Continual Learning)领域的研究有潜在联系,可能启发新的模型更新策略。最后,稀疏化策略的效果差异(如TIES优于DARE)提示我们,未来的合并方法设计应更关注参数选择机制的系统性,而非随机性,这可能与神经网络剪枝技术结合,产生更高效的合并算法。



Previous Post
Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs
Next Post
MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging