Skip to content
Go back 2505.12716 arXiv logo

Shadow-FT: Tuning Instruct via Base

Published:  at  11:25 AM
89.60 🤔

本文提出Shadow-FT框架,通过调优BASE模型并将权重更新直接移植到INSTRUCT模型,显著提升了大型语言模型在数学、编码和推理任务上的性能,同时不引入额外训练成本。

Large Language Model, Fine-tuning, Parameter-Efficient Fine-Tuning, Instruction Tuning, Reasoning, Multimodality

Taiqiang Wu, Runming Yang, Jiayi Li, Pengfei Hu, Ngai Wong, Yujiu Yang

The University of Hong Kong, Tsinghua University, Tencent

Generated by grok-3

Background Problem

大型语言模型(LLMs)在各种任务中表现出色,但直接对指令调优后的INSTRUCT模型进行进一步微调往往只能带来边际改进,甚至导致性能退化。研究发现,INSTRUCT模型与对应的预训练BASE模型在权重上高度相似(平均相对差异σ<0.02),这提示BASE模型可能作为调优的替代起点,避免INSTRUCT模型在指令跟随能力上的固有偏见对新知识学习造成的干扰。本文提出了一种新颖的框架Shadow-FT,旨在通过调优BASE模型并将权重更新直接移植到INSTRUCT模型上,解决INSTRUCT模型调优效果不佳的问题。

Method

Shadow-FT框架的核心思想是利用BASE模型作为INSTRUCT模型的’影子’进行调优,基于两者权重高度相似的观察。具体步骤如下:

作者认为,BASE模型由于仅经过预训练,未被指令调优的特性所干扰,其权重更新可能更适合新知识的学习。然而,这一假设缺乏深入的理论支持,权重相似性是否足以保证更新移植的有效性仍需进一步探讨。此外,方法未解释为何BASE模型的更新在某些任务上更优,可能存在潜在的风险,如忽略INSTRUCT模型固有的指令跟随能力带来的影响。

Experiment

实验设计较为全面,涵盖了多个主流LLM系列(如Qwen 3、Llama 3、Gemma 3等),并在数学(Math-7)、编码(Code-3)和推理(Reasoning-9)等19个基准测试上评估了Shadow-FT的表现。具体设置如下:

Further Thoughts

Shadow-FT的思路为模型调优提供了一个新颖的视角,即利用预训练模型作为调优代理以避免后训练模型的固有偏见。然而,我认为其理论基础仍需加强,例如权重相似性与行为相似性之间的关系是否足够直接支持权重更新的移植。此外,方法对BASE模型不可用的场景(如Qwen-3-32B)无能为力,未来可以探索通过知识蒸馏或其他代理模型构建虚拟BASE模型的可能性。另一个有趣的方向是结合其他调优技术(如RLHF或知识蒸馏)进一步提升Shadow-FT的效果,尤其是在多模态和长上下文任务中,可能会揭示更多潜在的应用价值。同时,考虑到不同模型架构对Shadow-FT的响应差异,未来研究可以深入分析模型架构特性与方法适用性之间的关系,以提高方法的普适性。



Previous Post
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation
Next Post
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving