Skip to content
Go back 2502.12706 arXiv logo

Scalable Model Merging with Progressive Layer-wise Distillation

Published:  at  11:26 AM
87.67 🤔

本文提出ProDistill算法,通过逐层教师-学生蒸馏高效合并大型预训练模型,理论证明领域特定数据的必要性,并在视觉、语言任务上实现显著性能提升(6.14%-6.61%),展现出优越的内存和计算效率。

Model Merging, Knowledge Distillation, Few-Shot Learning, Efficiency, Large Language Model, Vision Foundation Model

Jing Xu, Jiazheng Li, Jingzhao Zhang

清华大学交叉信息研究院, 上海齐智研究所, 北京理工大学计算机学院

Generated by grok-3

Background Problem

随着大规模预训练模型在语言和视觉领域的成功,越来越多的微调模型被公开用于特定任务。然而,复杂任务往往需要整合多种能力,而传统的多任务学习需要大量数据和计算资源,模型集成则带来存储开销。模型合并(Model Merging)通过加权平均模型权重(任务向量)提供了一种高效解决方案,但合并后模型性能下降的问题依然存在,尤其是在合并模型数量增加或数据不可用时。本文从理论上证明了无数据依赖的合并算法在最坏情况下表现可能极差,强调了领域特定数据的重要性,并提出了一种少样本场景下的高效合并方法,旨在解决性能下降和资源效率问题。

Method

本文提出了ProDistill(Progressive Layer-wise Distillation),一种基于逐层教师-学生蒸馏的模型合并算法,核心思想和步骤如下:

Experiment

实验在视觉分类(Vision Transformer, ViT)、自然语言理解(BERT, RoBERTa)和自然语言生成(LLAMA2, 13B参数)任务上全面评估了ProDistill的表现:

Further Thoughts

ProDistill的逐层蒸馏方法在资源受限环境下的应用潜力巨大,尤其是在边缘设备上部署AI模型时。然而,其对少样本数据的依赖提示我们思考是否可以结合自监督学习或无监督学习技术,进一步减少对标注数据的依赖。例如,是否可以利用预训练模型的中间层特征,通过对比学习生成伪标签用于合并?此外,逐层训练可能丢失全局信息的风险值得关注,特别是在处理长上下文依赖任务(如长文档理解)时,是否可以通过混合训练(部分层端到端,部分层逐层)来平衡效率和性能?与近期一些动态模型合并方法(如基于任务路由的Mixture-of-Experts)相比,ProDistill保持了原始模型架构的优势,但是否可以在此基础上引入动态路由机制,以进一步提升任务特定性能?这些方向可能为模型合并领域带来新的突破。



Previous Post
Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach
Next Post
Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking