Tag: Model Merging
All the articles with the tag "Model Merging".
-
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent
本文提出自适应投影梯度下降(DOGE)方法,通过数据无关优化目标和共享子空间构建,将多任务模型合并建模为约束优化问题,在视觉和NLP任务上显著提升性能并展现出优越的泛化能力。
-
Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost
本文提出Param∆方法,通过直接添加参数差值在零成本下实现后训练知识向新基模型的转移,达到与传统后训练相当的性能。