Skip to content
Go back 2505.23209 arXiv logo

Navigating the Accuracy-Size Trade-Off with Flexible Model Merging

Published:  at  11:26 AM
85.58 🤔

FlexMerge提出了一种无数据的灵活模型合并框架,通过逐块贪婪合并微调模型,支持任意大小模型生成,并在精度-大小权衡上展现出显著的初期精度提升和接近微调精度的潜力。

Model Merging, Data-Free Merging, Accuracy-Size Tradeoff, Transformer, Fine-Tuning, Multi-Task Learning

Akash Dhasade, Divyansh Jhunjhunwala, Milos Vujasinovic, Gauri Joshi, Anne-Marie Kermarrec

EPFL, Carnegie Mellon University

Generated by grok-3

Background Problem

近年来,预训练后微调的范式在自然语言处理(NLP)和计算机视觉领域取得了巨大成功,但为每个任务部署单独的微调模型会导致高昂的存储和部署成本,而多任务学习(MTL)又面临计算开销和数据隐私问题。模型合并作为一种无需训练数据的解决方案,能够将多个微调模型合并为一个模型,但单一合并模型往往存在精度差距,尤其是在任务数量增加时。论文提出两个关键问题:如何在无数据条件下生成任意大小的合并模型,以及不同无数据合并算法在精度-大小权衡上的表现如何。FlexMerge框架旨在解决这些问题,通过灵活控制合并模型的大小,在精度和部署成本之间找到平衡。

Method

FlexMerge是一种无数据的模型合并框架,其核心思想是将每个微调模型视为由多个顺序块(例如Transformer块或层)组成,并通过贪婪策略逐步合并这些块,直到达到目标模型大小。具体步骤如下:

Experiment

论文在视觉和NLP领域进行了广泛实验,涉及8任务和30任务的视觉基准(如ViT-B/32、ViT-L/14模型)、11任务的PEFT(基于T0-3B)和7任务的NLP全参数微调(基于T5-Base和T5-Large)。

Further Thoughts

FlexMerge的块级合并思路为模型合并领域提供了一个新的视角,但其贪婪策略和相似度度量可能存在改进空间,例如是否可以引入任务相关性或块重要性权重来指导合并顺序。此外,论文未探讨异构模型合并的可能性,而这在实际部署中可能更为常见,未来可以尝试将FlexMerge与跨架构知识蒸馏结合,解决异构模型的参数冲突问题。另一个有趣的方向是,是否可以将FlexMerge的灵活大小控制与联邦学习结合,用于分布式环境中模型的动态调整,以适应不同客户端的资源限制和任务需求。最后,精度-大小权衡的非线性特性值得进一步研究,是否可以通过理论分析或模拟实验揭示其背后的机制,从而设计更高效的合并算法。



Previous Post
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt
Next Post
1bit-Merging: Dynamic Quantized Merging for Large Language Models