本文通过理论和实验分析,提出模型集成方法通过平衡‘bias-variance’权衡有效缓解监督微调中的过适应问题,提升下游任务性能并减少预训练知识遗忘。
Supervised Learning, Fine-tuning, Pre-training, Large Language Model, Robustness
Yifan Hao, Xingyuan Pan, Hanning Zhang, Chenlu Ye, Rui Pan, Tong Zhang
University of Illinois Urbana-Champaign
Generated by grok-3
Background Problem
大型语言模型(LLMs)通过预训练-微调范式在特定下游任务上取得了显著成功,但监督微调(SFT)常导致模型遗忘预训练阶段获得的通用知识(即灾难性遗忘问题)。此外,论文观察到一种‘过适应’现象,即微调模型在下游任务上过度拟合,导致性能下降。模型集成(ensembling)作为一种策略,已在视觉模型和强化学习中显示出缓解遗忘问题的潜力,但其在语言模型中的作用及理论基础尚未充分探索。本文旨在解决这一问题,研究集成方法如何通过平衡‘bias-variance’权衡来缓解过适应,同时提升下游任务性能并减少对上游任务知识的遗忘。
Method
论文提出了一种基于模型集成的方法来缓解监督微调中的过适应问题,核心思想是通过加权平均预训练模型和微调模型的参数来平衡任务特定信息和通用知识的保留。具体步骤如下:
- 预训练阶段:在任务1上使用‘ridgeless’估计器(最小范数解)来模拟预训练模型的强泛化能力。
- 微调阶段:在任务2上考虑两种微调策略:无正则化的‘ridgeless’回归(模拟过适应)和带正则化的ridge回归(模拟早停等缓解过适应的方法)。
- 集成阶段:通过加权平均预训练模型参数 和微调模型参数 (可以是 或 ),得到集成估计器 ,其中 为加权系数。
- 理论分析:在过参数化线性回归框架下,分析集成方法如何通过减少测试误差中的‘bias’(由于微调不足)和‘variance’(由于过拟合)来提升性能。
批判性思考:虽然线性设置便于理论分析,但其假设(如任务间的相似性和特征分布)可能过于简化,难以直接推广到复杂的非线性神经网络。此外,集成方法的加权系数 的选择在理论和实验中均未充分优化,可能影响实际效果。
Experiment
实验基于三个开源大型语言模型(Llama-3-8B, Qwen2-7B, Gemma-2-9B),使用Dolly数据集进行指令跟随微调,并在MT-Bench(指令跟随能力)、MMLU和Commonsense-QA(通用能力)上评估性能。实验设置包括:
- 对比方法:比较无正则化的普通微调(Vanilla-FT)、两种正则化方法(Norm-Penalty和DiffNorm-Penalty)以及对应的集成变体(Avg-Norm-Penalty和Avg-DiffNorm-Penalty)。
- 结果:(1) 过适应确实有害,普通微调在训练后期性能下降,而正则化方法有所改善;(2) 集成方法在下游任务(MT-Bench)上始终优于单独微调模型,例如在Llama-3-8B上,Avg-Norm-Penalty得分为5.96,优于Vanilla-FT的5.68;(3) 集成方法在预训练任务上的遗忘减少,表现出更好的性能权衡。
- 分析与批判:实验结果与理论预期一致,表明集成方法有效缓解了过适应并减少遗忘。然而,实验仅限于特定模型和数据集,缺乏跨领域或更大规模模型的验证,泛化性存疑。此外,正则化方法的选择对集成效果有显著影响(如Norm-Penalty优于DiffNorm-Penalty),但论文未深入探讨原因,实验设计不够全面。
Further Thoughts
本文提出的集成方法在缓解过适应和遗忘问题上展现了潜力,但其理论分析基于线性模型的局限性值得关注。未来研究可以探索非线性神经网络中的‘bias-variance’权衡如何具体体现,例如通过神经切线核(NTK)理论进一步连接线性设置与实际模型。此外,实验中正则化方法对集成效果的影响差异提示我们,不同微调策略可能需要定制化的集成方案,这与近年来参数高效微调(如LoRA)的研究趋势相呼应,值得深入探讨集成与高效微调技术的结合效果。最后,考虑到大型语言模型的多样化应用场景,集成方法在多任务学习或持续学习中的适用性也可能是一个有前景的方向,尤其是在资源受限环境下如何高效实现集成。