Tag: Model Merging
All the articles with the tag "Model Merging".
-
Scalable Model Merging with Progressive Layer-wise Distillation
本文提出ProDistill算法,通过逐层教师-学生蒸馏高效合并大型预训练模型,理论证明领域特定数据的必要性,并在视觉、语言任务上实现显著性能提升(6.14%-6.61%),展现出优越的内存和计算效率。
-
Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking
本文提出Decom-Renorm-Merge(DRM)方法,通过奇异值分解和重归一化构建共享表示空间以合并多任务模型权重,在视觉和语言任务上显著优于现有方法。
-
Navigating the Accuracy-Size Trade-Off with Flexible Model Merging
FlexMerge提出了一种无数据的灵活模型合并框架,通过逐块贪婪合并微调模型,支持任意大小模型生成,并在精度-大小权衡上展现出显著的初期精度提升和接近微调精度的潜力。
-
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent
本文提出自适应投影梯度下降(DOGE)方法,通过数据无关优化目标和共享子空间构建,将多任务模型合并建模为约束优化问题,在视觉和NLP任务上显著提升性能并展现出优越的泛化能力。
-
Dynamic Fisher-weighted Model Merging via Bayesian Optimization
本文提出了动态 Fisher 加权合并 (DF-Merge) 方法,通过贝叶斯优化动态调整微调模型的缩放系数,并在这些缩放模型上利用 Fisher 信息进行加权合并,从而高效地创建性能显著优于现有基线的多任务模型。