Skip to content
Go back 2505.21226 arXiv logo

Why Do More Experts Fail? A Theoretical Analysis of Model Merging

Published:  at  11:34 AM
86.88 🤔

本文通过理论分析揭示了模型融合性能随专家模型数量增加而饱和的原因,并提出Reparameterized Heavy-Tailed方法扩展参数空间覆盖范围,在多个基准任务上验证了其有效性。

Parameter-Efficient Fine-Tuning, Foundation Model, Multimodal Systems, Efficiency

Zijing Wang, Xingle Xu, Yongkang Liu, Yiqun Zhang, Peiqin Lin, Shi Feng, Xiaocui Yang, Daling Wang, Hinrich Schütze

Northeastern University, China, CIS, LMU Munich, MCML, Germany

Generated by grok-3

Background Problem

模型融合(Model Merging)是一种将多个任务特定的专家模型整合为单一多任务模型的方法,旨在减少存储和计算资源需求,并提升模型对复杂任务的适应能力。然而,现有方法在融合较多专家模型时性能提升受限,甚至出现饱和或下降现象。本文从理论和实证角度探讨了这一现象背后的原因,试图揭示参数空间饱和和冗余对模型融合性能的影响,并提出解决方案以突破这一限制。

Method

本文提出了一种理论框架来分析模型融合的性能饱和问题,并设计了Reparameterized Heavy-Tailed (RHT)方法来提升融合效果。具体方法如下:

Experiment

实验在12个基准数据集上进行,涵盖知识密集型和通用任务,具体包括MMLU、MATH、MGSM等。实验设置包括:

Further Thoughts

本文提出的参数空间饱和和RHT方法为模型融合研究提供了新的视角,但其理论和方法仍存在局限性。未来研究可以探索更复杂的参数分布假设和异构模型架构下的融合效果,例如不同预训练模型(如Transformer和State Space Model)融合时的参数空间交互。此外,任务相关性和数据分布差异对融合上限的影响也值得深入研究,例如是否可以通过任务聚类或数据选择优化专家模型的选择策略。另一个有趣的方向是结合联邦学习(Federated Learning)思想,在分布式环境中进行模型融合,是否能通过分散的参数更新缓解参数冗余问题。这些方向可能进一步扩展模型融合的适用范围和性能上限。



Previous Post
PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery
Next Post
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models