Merge to Mix: Mixing Datasets via Model Merging

本文提出Merge to Mix方法，通过模型合并技术作为代理，高效选择数据集混合用于大型模型微调，在图像分类和语言任务中显著优于传统方法，接近甚至部分超过Oracle性能。

Fine-tuning, Dataset, Large Language Model, Vision Foundation Model, Efficiency

Zhixu Silvia Tao, Kasper Vinken, Hao-Wei Yeh, Avi Cooper, Xavier Boix

Princeton University, Fujitsu Research of America, Fujitsu Limited

Generated by grok-3

Background Problem

在大型模型（LMs）的微调过程中，训练数据的分布质量对下游任务性能至关重要。不平衡或不匹配的数据分布可能导致模型性能下降或泛化能力不足。然而，针对特定任务的对齐数据往往稀缺或不可用，因此通过混合多个现有数据集进行微调成为一种常见策略。关键问题是，如何从大量候选混合中高效选择与目标任务最匹配的数据集组合，以避免昂贵的试错过程和多次微调。本文提出了一种新方法，通过模型合并技术解决这一数据集混合选择问题。

Method

本文提出的方法称为Merge to Mix，其核心思想是利用模型合并（Model Merging）作为代理（Surrogate），以预测在数据集混合上进行完整微调（Mixture-Fine-Tuned）的性能，从而避免每次评估候选混合时的昂贵微调成本。具体步骤如下：

个体微调：对每个可用数据集 $D_i$ ，从相同的预训练模型参数 $\theta_0$ 开始，分别进行微调，得到一组个体微调模型参数 $\{\theta^*_1, \dots, \theta^*_N\}$ 。
模型合并：对于候选数据集混合 $S_\alpha$ （由二进制向量 $\alpha$ 定义），通过简单平均的方式合并对应数据集的个体微调模型参数，得到代理模型 $\tilde{\theta}(S_\alpha) = \frac{1}{|S_\alpha|} \sum_{\{i:\alpha_i=1\}} \theta^*_i$ 。
性能评估与选择：在目标任务 $T$ 上评估代理模型 $\tilde{\theta}(S_\alpha)$ 的性能，选择表现最佳的混合 $S_{\alpha^*}$ 作为最终数据集混合。

关键假设是合并模型性能与混合微调模型性能之间存在强正相关性，即 $L(\tilde{\theta}(S_\alpha); T) \propto L(\theta^*(S_\alpha); T)$ ，从而可以用合并模型的性能近似指导数据集混合选择。

批判性思考：虽然方法创新，但简单平均的合并方式可能过于简化，未考虑数据集间的分布差异或模型参数间的非线性交互，可能导致代理模型无法准确反映混合微调的真实性能。此外，方法依赖于个体微调模型的预计算，若数据集数量 $N$ 较大，初始微调成本仍然较高。

Experiment

实验在计算机视觉和语言处理两个领域进行，以验证Merge to Mix方法的有效性。

计算机视觉任务：使用8个图像分类数据集（如Cars, MNIST等），采用留一法（Leave-One-Out）评估，即每次将一个数据集作为目标任务，其余7个作为候选训练数据集。预训练模型为CLIP-ViT-B-32，个体微调10个epoch。结果显示，合并模型与混合微调模型性能的相关性较高（平均Pearson相关系数为0.78），且Merge to Mix在大多数任务上显著优于基线方法（包括使用所有数据集、基于相似度的选择和随机选择），平均准确率为0.587（合并模型）和0.524（微调模型），接近甚至在某些任务上超过Oracle性能（0.568）。
语言任务：针对日语语言理解任务，使用6个训练数据集（如mCoT-MATH-ja等），评估8个日语技能和英语理解能力。预训练模型为Llama-3-8B-Instruct，个体微调1个epoch。结果显示相关性稍低（平均Pearson相关系数为0.57），但Merge to Mix仍优于基线，平均准确率为0.491（合并模型）和0.489（微调模型），接近Oracle性能（0.512）。

实验设计分析：实验设置较为全面，涵盖了视觉和语言两个领域，任务多样性较好。然而，数据集数量较小（N=6或7），穷举搜索策略在更大规模场景下可能不可行。此外，语言任务中相关性较低的原因未被深入探讨，可能与任务复杂性或数据异质性有关。结果显示合并模型在图像任务中常优于微调模型（平均高出6.3%），这一现象未被解释，可能暗示合并模型对任务鲁棒性的潜在优势，但缺乏进一步分析。

批判性思考：实验结果总体支持了方法有效性，但相关性差异和合并模型优于微调模型的现象需要更深入研究。实验未充分验证方法在大规模数据集场景下的可扩展性，基线方法（如相似度选择）的表现也可能因具体实现而被低估。

Further Thoughts

深入思考Merge to Mix方法，我认为其核心贡献在于将模型合并技术应用于数据准备阶段，这一思路可能启发更多数据驱动的模型优化策略。然而，方法当前依赖简单平均合并，可能无法充分捕捉数据集间的复杂关系，未来可以探索更高级的合并技术（如基于任务向量的加权合并）以提升代理模型的预测精度。此外，合并模型在图像任务中优于微调模型的现象值得进一步研究，这可能与模型合并对参数空间的平滑效应或对过拟合的抑制作用有关，类似于集成学习中的多样性优势。如果能揭示这一机制，可能为模型鲁棒性和泛化能力提供新的理论支持。

另一个有趣的方向是，结合Merge to Mix与联邦学习（Federated Learning）或多代理系统（Multi-Agent Systems），在分布式环境中利用不同数据源的个体微调模型进行合并，以解决数据隐私和计算资源限制问题。这可能特别适用于医疗或金融领域中数据敏感且分布不均的场景。总之，本文提供了一个有前景的框架，但其理论基础、适用范围及与其他技术的结合潜力仍有待进一步探索。