本文提出了一种低秩引导的稀疏微调方法LIFT,通过低秩近似后选择主要权重进行微调,在推理任务上显著优于全参数微调和LoRA等方法,同时保持内存效率。
Supervised Learning, Large Language Model, Parameter-Efficient Fine-Tuning, Reasoning, Efficiency
Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
University of California, Berkeley, CA, USA, Dartmouth College, NH, USA, International Computer Science Institute, CA, USA, Lawrence Berkeley National Laboratory, CA, USA, Tsinghua University, China, University of Exeter, Exeter, UK, Eindhoven University of Technology, the Netherlands, University of Surrey, Guildford, UK, University of Oxford, Oxford, UK
Generated by grok-3
Background Problem
近年来,大语言模型(LLM)通过监督微调(Supervised Fine-Tuning, SFT)在推理能力上取得了显著进步,尤其是在少量高质量数据集上的微调能够带来出色的数学推理表现。然而,全参数微调(Full FT)存在计算成本高、过拟合风险大以及灾难性遗忘等问题,特别是在数据有限的情况下。稀疏微调(Sparse FT)作为一种替代方法,通过仅更新模型参数的子集来降低计算和内存开销,但在LLM时代,其效果不如低秩方法(如LoRA),主要原因是难以识别对推理能力真正关键的参数。本文提出了一种新方法,旨在解决稀疏微调在识别关键权重上的难题,并提升推理任务的表现,同时保持内存效率。
Method
本文提出了低秩引导的稀疏微调方法(Low-rank Informed Sparse Fine-Tuning, LIFT),其核心思想是通过低秩近似(Low-Rank Approximation, LRA)识别权重矩阵中的‘Principal Weights’(主要权重),即在低秩近似后幅度最大的参数,并仅对这些参数(约占总参数的5%)进行微调。具体步骤如下:
- 低秩近似: 对模型的可训练权重矩阵 进行秩为 的近似,得到 ,以滤除高阶成分中的‘噪声’,保留与任务相关的主要信息,依据Eckart-Young-Mirsky定理确保近似矩阵与原矩阵的Frobenius范数差异最小。
- 权重选择: 在近似矩阵 中选择幅度最大的前 个参数,生成二进制掩码 ,其中对应位置设为1,其余为0。
- 稀疏更新: 在微调过程中,仅对掩码 中为1的参数计算梯度并更新优化器状态(如Adam的动量和方差),从而大幅降低内存开销。
- 动态调整: 由于低秩近似和主要权重会随训练变化,LIFT会定期更新掩码,但更新间隔需平衡效果与效率(具体策略在附录中)。
批判性思考: 虽然LIFT的思路新颖,但其理论依据存在不足。论文假设低秩近似后的大权重参数对推理能力至关重要,但缺乏对这一假设的深入理论支持,仅引用了部分相关研究。此外,动态更新掩码的策略未在正文中详细说明,可能导致方法在不同任务或模型上的适应性问题。低秩近似的计算开销也未被充分讨论,尤其是在大规模模型上,这可能抵消部分内存效率优势。
Experiment
论文在多个推理相关任务上评估了LIFT的性能,实验设置如下:
- 任务与数据集: 包括推理模型(GPQA Diamond)、常识推理(Commonsense-170K,评估于8个任务)、算术推理(MATH-10K,评估于7个数据集)、自然语言理解(GLUE)、代码生成(Humaneval)和问答(StrategyQA)。
- 模型: 使用了LLaMA系列(1B到8B)、Qwen-2.5(1.5B和3B)、DeBERTa-V3和RoBERTa-large等模型。
- 基线方法: 对比了全参数微调(Full FT)、LoRA、DoRA、PiSSA、S2FT等参数高效微调(PEFT)方法,以及其他稀疏微调方法。
- 结果: LIFT在大多数任务上表现优于基线方法。例如,在常识推理任务中,LIFT在LLaMA-2-7B上比Full FT高1.13%,比LoRA高4.42%;在算术推理任务中,LIFT在LLaMA-3-8B上比Full FT高1.60%;在GPQA Diamond上,LIFT比Full FT高出约2%。此外,LIFT在目标域任务上学习更多,同时在源域任务上遗忘更少(比Full FT高出5%,比LoRA高出12%)。内存效率方面,LIFT的优化器状态内存占用仅为Full FT的5%左右,与LoRA相当。
- 实验设计分析: 实验覆盖了多种任务和模型规模,设置较为全面,但数据集选择可能存在偏向,部分任务(如代码生成和问答)的详细结果被放在附录中,透明度不足。秩 的选择和更新间隔的具体影响未在正文中充分探讨,实验结果可能受到超参数调优的影响。此外,低秩近似的计算开销未被量化,可能低估了方法的实际成本。
- 批判性思考: 虽然LIFT在性能上表现出色,但其改进幅度在某些任务上(如自然语言理解)相对有限,且是否普适于所有任务仍需更多验证。实验结果显示LIFT在困难任务(如GSM8K)上表现突出,但是否由于数据分布或模型特性导致的性能提升未被深入分析,存在cherry-picking结果的潜在风险。
Further Thoughts
LIFT方法通过低秩近似识别主要权重进行稀疏微调的思路具有一定创新性,但其理论基础和实际应用仍需进一步探索。结合论文中提到的局限性,我认为一个有趣的改进方向是自适应秩选择,即针对不同层或不同任务动态调整低秩近似的秩 ,以更好地捕捉模型的异质性。此外,LIFT是否可以与强化学习方法(如RLHF或GRPO)结合,以在推理能力提升的同时进一步优化对齐和安全性,是一个值得研究的交叉领域。另一个思考点是,LIFT在低秩近似上的计算开销可能通过更高效的矩阵分解算法(如随机SVD)或GPU加速来优化,这与论文结论中的问题相呼应。进一步联系到其他研究领域,LIFT的权重选择策略可能借鉴神经网络剪枝(Pruning)中的重要性评估方法,以更精确地识别关键参数。最后,我认为LIFT的‘遗忘更少’特性可能对持续学习(Continual Learning)领域有启发,尤其是在多任务学习中如何平衡新旧知识的保留与更新,值得后续研究深入挖掘。