Skip to content
Go back 2505.16066 arXiv logo

Merge to Mix: Mixing Datasets via Model Merging

Published:  at  11:24 AM
87.71 🤔

本文提出Merge to Mix方法,通过模型合并技术作为代理,高效选择数据集混合用于大型模型微调,在图像分类和语言任务中显著优于传统方法,接近甚至部分超过Oracle性能。

Fine-tuning, Dataset, Large Language Model, Vision Foundation Model, Efficiency

Zhixu Silvia Tao, Kasper Vinken, Hao-Wei Yeh, Avi Cooper, Xavier Boix

Princeton University, Fujitsu Research of America, Fujitsu Limited

Generated by grok-3

Background Problem

在大型模型(LMs)的微调过程中,训练数据的分布质量对下游任务性能至关重要。不平衡或不匹配的数据分布可能导致模型性能下降或泛化能力不足。然而,针对特定任务的对齐数据往往稀缺或不可用,因此通过混合多个现有数据集进行微调成为一种常见策略。关键问题是,如何从大量候选混合中高效选择与目标任务最匹配的数据集组合,以避免昂贵的试错过程和多次微调。本文提出了一种新方法,通过模型合并技术解决这一数据集混合选择问题。

Method

本文提出的方法称为Merge to Mix,其核心思想是利用模型合并(Model Merging)作为代理(Surrogate),以预测在数据集混合上进行完整微调(Mixture-Fine-Tuned)的性能,从而避免每次评估候选混合时的昂贵微调成本。具体步骤如下:

关键假设是合并模型性能与混合微调模型性能之间存在强正相关性,即L(θ~(Sα);T)L(θ(Sα);T)L(\tilde{\theta}(S_\alpha); T) \propto L(\theta^*(S_\alpha); T),从而可以用合并模型的性能近似指导数据集混合选择。

批判性思考:虽然方法创新,但简单平均的合并方式可能过于简化,未考虑数据集间的分布差异或模型参数间的非线性交互,可能导致代理模型无法准确反映混合微调的真实性能。此外,方法依赖于个体微调模型的预计算,若数据集数量NN较大,初始微调成本仍然较高。

Experiment

实验在计算机视觉和语言处理两个领域进行,以验证Merge to Mix方法的有效性。

实验设计分析:实验设置较为全面,涵盖了视觉和语言两个领域,任务多样性较好。然而,数据集数量较小(N=6或7),穷举搜索策略在更大规模场景下可能不可行。此外,语言任务中相关性较低的原因未被深入探讨,可能与任务复杂性或数据异质性有关。结果显示合并模型在图像任务中常优于微调模型(平均高出6.3%),这一现象未被解释,可能暗示合并模型对任务鲁棒性的潜在优势,但缺乏进一步分析。

批判性思考:实验结果总体支持了方法有效性,但相关性差异和合并模型优于微调模型的现象需要更深入研究。实验未充分验证方法在大规模数据集场景下的可扩展性,基线方法(如相似度选择)的表现也可能因具体实现而被低估。

Further Thoughts

深入思考Merge to Mix方法,我认为其核心贡献在于将模型合并技术应用于数据准备阶段,这一思路可能启发更多数据驱动的模型优化策略。然而,方法当前依赖简单平均合并,可能无法充分捕捉数据集间的复杂关系,未来可以探索更高级的合并技术(如基于任务向量的加权合并)以提升代理模型的预测精度。此外,合并模型在图像任务中优于微调模型的现象值得进一步研究,这可能与模型合并对参数空间的平滑效应或对过拟合的抑制作用有关,类似于集成学习中的多样性优势。如果能揭示这一机制,可能为模型鲁棒性和泛化能力提供新的理论支持。

另一个有趣的方向是,结合Merge to Mix与联邦学习(Federated Learning)或多代理系统(Multi-Agent Systems),在分布式环境中利用不同数据源的个体微调模型进行合并,以解决数据隐私和计算资源限制问题。这可能特别适用于医疗或金融领域中数据敏感且分布不均的场景。总之,本文提供了一个有前景的框架,但其理论基础、适用范围及与其他技术的结合潜力仍有待进一步探索。



Previous Post
LoRASuite: Efficient LoRA Adaptation Across Large Language Model Upgrades
Next Post
Parallel Scaling Law for Language Models