本文提出Shadow-FT框架,通过调优BASE模型并将权重更新直接移植到INSTRUCT模型,显著提升了大型语言模型在数学、编码和推理任务上的性能,同时不引入额外训练成本。
Large Language Model, Fine-tuning, Parameter-Efficient Fine-Tuning, Instruction Tuning, Reasoning, Multimodality
Taiqiang Wu, Runming Yang, Jiayi Li, Pengfei Hu, Ngai Wong, Yujiu Yang
The University of Hong Kong, Tsinghua University, Tencent
Generated by grok-3
Background Problem
大型语言模型(LLMs)在各种任务中表现出色,但直接对指令调优后的INSTRUCT模型进行进一步微调往往只能带来边际改进,甚至导致性能退化。研究发现,INSTRUCT模型与对应的预训练BASE模型在权重上高度相似(平均相对差异σ<0.02),这提示BASE模型可能作为调优的替代起点,避免INSTRUCT模型在指令跟随能力上的固有偏见对新知识学习造成的干扰。本文提出了一种新颖的框架Shadow-FT,旨在通过调优BASE模型并将权重更新直接移植到INSTRUCT模型上,解决INSTRUCT模型调优效果不佳的问题。
Method
Shadow-FT框架的核心思想是利用BASE模型作为INSTRUCT模型的’影子’进行调优,基于两者权重高度相似的观察。具体步骤如下:
- 调优BASE模型:对BASE模型进行微调(可以是全参数微调或LoRA低秩微调),得到更新后的权重 ,即 。
- 权重更新移植:将BASE模型的权重更新 直接加到INSTRUCT模型的权重 上,得到更新后的INSTRUCT模型权重 。
- 无额外成本:该方法不引入额外的参数或训练成本,仅在调优对象上从INSTRUCT切换到BASE。
作者认为,BASE模型由于仅经过预训练,未被指令调优的特性所干扰,其权重更新可能更适合新知识的学习。然而,这一假设缺乏深入的理论支持,权重相似性是否足以保证更新移植的有效性仍需进一步探讨。此外,方法未解释为何BASE模型的更新在某些任务上更优,可能存在潜在的风险,如忽略INSTRUCT模型固有的指令跟随能力带来的影响。
Experiment
实验设计较为全面,涵盖了多个主流LLM系列(如Qwen 3、Llama 3、Gemma 3等),并在数学(Math-7)、编码(Code-3)和推理(Reasoning-9)等19个基准测试上评估了Shadow-FT的表现。具体设置如下:
- 数据集:使用BAAI-2k数据集(从BAAI-Infinity-Instruct中提取2000个高质量样本)作为主要调优数据,同时在领域特定数据集(如医疗、编码、数学)上进行测试。
- 调优策略:采用全参数微调和LoRA(低秩适配)两种方式,LoRA的秩从4到512不等。
- 结果:Shadow-FT在大多数模型和任务上优于传统调优方法,例如在Qwen-3-4B上,Shadow-FT的平均得分为69.6,相比传统调优方法的66.2提升了3.4;在Qwen-3-14B上提升更为显著(75.9 vs. 73.4)。此外,Shadow-FT在多模态模型(MLLMs)和DPO(直接偏好优化)结合的场景下也表现出色。
- 分析与不足:虽然结果显示Shadow-FT有效,但部分模型(如Yi-6B)提升不明显,甚至略有下降,表明方法可能对某些模型架构不完全适用。实验未充分探讨性能退化的具体原因,也未提供消融研究来分析权重相似性σ的具体影响。此外,基准测试主要采用零样本设置,可能无法完全反映模型在实际应用中的表现,实验设计的全面性有待加强。
Further Thoughts
Shadow-FT的思路为模型调优提供了一个新颖的视角,即利用预训练模型作为调优代理以避免后训练模型的固有偏见。然而,我认为其理论基础仍需加强,例如权重相似性与行为相似性之间的关系是否足够直接支持权重更新的移植。此外,方法对BASE模型不可用的场景(如Qwen-3-32B)无能为力,未来可以探索通过知识蒸馏或其他代理模型构建虚拟BASE模型的可能性。另一个有趣的方向是结合其他调优技术(如RLHF或知识蒸馏)进一步提升Shadow-FT的效果,尤其是在多模态和长上下文任务中,可能会揭示更多潜在的应用价值。同时,考虑到不同模型架构对Shadow-FT的响应差异,未来研究可以深入分析模型架构特性与方法适用性之间的关系,以提高方法的普适性。