Skip to content
Go back 2504.18992 arXiv logo

Dynamic Fisher-weighted Model Merging via Bayesian Optimization

Published:  at  01:19 AM
86.13 🤔

本文提出了动态 Fisher 加权合并 (DF-Merge) 方法,通过贝叶斯优化动态调整微调模型的缩放系数,并在这些缩放模型上利用 Fisher 信息进行加权合并,从而高效地创建性能显著优于现有基线的多任务模型。

Fine-Tuning, Pre-Training, Multi-Task Learning, Parameter Optimization, Model Merging

Sanwoo Lee, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Yunfang Wu

Peking University, Meituan, Meta AI

Generated by gemini-2.5-flash-preview-04-17

Background Problem

预训练语言模型(PLMs)的微调产生了大量针对特定任务的专家模型。模型合并提供了一种无需训练数据或联合训练即可将这些模型在参数层面结合起来创建多任务模型的有效方法。然而,现有的合并方法(如模型层面的缩放或参数层面的重要性整合)各自存在不足,导致与多任务微调相比存在显著的性能差距。

Method

统一框架: 将现有的模型层面缩放(如 Task Arithmetic)和参数层面重要性(如 Fisher Merging)方法统一到一个更通用的合并框架中。 DF-Merge 合并函数: 提出一种新的合并函数,结合了两种方法的优点。它通过对每个任务向量 τi=θiθpre\tau_i = \theta_i - \theta_{pre} 应用一个缩放系数 λi\lambda_i,并在由这些缩放后的模型 θi(λi)=λiτi+θpre\theta_i(\lambda_i) = \lambda_i \tau_i + \theta_{pre} 计算出的 Fisher 信息(对角近似)加权下进行合并。公式为:f=(iMdiag(F^θi(λi)))1(MiMdiag(F^θi(λi))λiτi)+θpref = \left(\sum_{i}^{M} \text{diag}(\hat{F}_{\theta_i(\lambda_i)})\right)^{-1} \left(M \sum_{i}^{M} \text{diag}(\hat{F}_{\theta_i(\lambda_i)})\lambda_i \tau_i\right) + \theta_{pre} 系数优化: 使用贝叶斯优化(Bayesian Optimization, BO)来动态调整系数集合 {λi}i=1M\{\lambda_i\}_{i=1}^M,以最大化在验证集上的平均准确率。BO 适用于优化不可微指标(如准确率),并且比网格搜索更高效。它使用高斯过程建模目标函数,并通过采集函数(如 EI 或 UCB)选择下一个要评估的系数组合。

Experiment

模型与数据集: 使用 T5-base (223M) 和 T5-large (738M) 模型,在六个不同的 NLP 任务数据集上进行实验:PAWS, QASC, QuaRTz, Story Cloze, WikiQA, Winogrande。这些任务涵盖问答、释义识别、句子补全和共指消解等。实验中假设在合并阶段无法访问原始训练数据。 评估指标: 所有任务均使用准确率进行评估。 实验设置: DF-Merge 使用贝叶斯优化进行 50 轮迭代,前 10 轮为随机初始化,系数 λi\lambda_i 限制在 [0, 1] 范围内。Fisher 信息使用 30 个无标签验证样本计算对角近似。基线方法(Task Arithmetic, TIES-Merging, DARE)通过网格搜索确定最佳超参数。 结果: DF-Merge 在 T5-base 和 T5-large 模型上的平均准确率显著优于所有基线方法(T5-base 提升 4.48 点,T5-large 提升 1.73 点)。DF-Merge 显著缩小了与理想的多任务微调模型之间的性能差距。此外,DF-Merge 在平衡不同任务性能方面表现更好,最大性能下降小于基线方法。 效率分析: 实验表明,DF-Merge 可以在少量迭代次数内(初始随机评估后约 9 轮)达到接近最优的性能。使用少量验证数据(5%)即可获得接近使用全部验证数据的性能,并显著优于 Task Arithmetic。 消融实验: 移除 Fisher 信息或贝叶斯优化都会导致性能显著下降,证明了这两个组件对 DF-Merge 的重要性。

Further Thoughts

论文中提到 Fisher 信息是在 θi(λi)=λiτi+θpre\theta_i(\lambda_i) = \lambda_i \tau_i + \theta_{pre} 处计算的。这意味着 Fisher 信息是基于一个介于预训练模型和微调模型之间的模型状态计算的。这与传统的 Fisher Merging 在微调模型 θi\theta_i 处计算 Fisher 信息不同。这种在“中间点”计算 Fisher 信息的做法,可能更好地捕捉了在合并路径上的参数重要性,从而帮助找到更好的低损耗区域。这是否意味着在模型合并中,参数重要性应该在合并路径上的某个点而不是最终微调点进行评估? 贝叶斯优化虽然高效,但其性能依赖于高斯过程的核函数选择和采集函数。对于更高维度的系数空间(合并更多模型),BO 的效率可能会下降。未来的工作可以探索更适合高维空间的优化方法,或者利用模型合并的特性(例如,参数之间的结构化关系)来改进 BO 的效率。 论文中使用了 Fisher 信息的对角近似,这假设参数之间是独立的。这在大型模型中是一个强假设。未来的工作可以探索更复杂的 Fisher 信息近似方法(如块对角)或使用其他参数重要性度量,并将其整合到 DF-Merge 框架中。 DF-Merge 依赖于有标签的验证集。虽然论文表明少量数据即可,但在完全无标签或标签获取成本极高的情况下,如何进行有效的模型合并仍然是一个挑战。探索无监督或弱监督的模型合并方法,或者利用伪标签等技术,是值得研究的方向。



Previous Post
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute
Next Post
ZeroSearch: Incentivize the Search Capability of LLMs without Searching