Skip to content
Go back 2506.00772 arXiv logo

LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning

Published:  at  12:00 PM
89.25 🤔

本文提出了一种低秩引导的稀疏微调方法LIFT,通过低秩近似后选择主要权重进行微调,在推理任务上显著优于全参数微调和LoRA等方法,同时保持内存效率。

Supervised Learning, Large Language Model, Parameter-Efficient Fine-Tuning, Reasoning, Efficiency

Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu

University of California, Berkeley, CA, USA, Dartmouth College, NH, USA, International Computer Science Institute, CA, USA, Lawrence Berkeley National Laboratory, CA, USA, Tsinghua University, China, University of Exeter, Exeter, UK, Eindhoven University of Technology, the Netherlands, University of Surrey, Guildford, UK, University of Oxford, Oxford, UK

Generated by grok-3

Background Problem

近年来,大语言模型(LLM)通过监督微调(Supervised Fine-Tuning, SFT)在推理能力上取得了显著进步,尤其是在少量高质量数据集上的微调能够带来出色的数学推理表现。然而,全参数微调(Full FT)存在计算成本高、过拟合风险大以及灾难性遗忘等问题,特别是在数据有限的情况下。稀疏微调(Sparse FT)作为一种替代方法,通过仅更新模型参数的子集来降低计算和内存开销,但在LLM时代,其效果不如低秩方法(如LoRA),主要原因是难以识别对推理能力真正关键的参数。本文提出了一种新方法,旨在解决稀疏微调在识别关键权重上的难题,并提升推理任务的表现,同时保持内存效率。

Method

本文提出了低秩引导的稀疏微调方法(Low-rank Informed Sparse Fine-Tuning, LIFT),其核心思想是通过低秩近似(Low-Rank Approximation, LRA)识别权重矩阵中的‘Principal Weights’(主要权重),即在低秩近似后幅度最大的参数,并仅对这些参数(约占总参数的5%)进行微调。具体步骤如下:

批判性思考: 虽然LIFT的思路新颖,但其理论依据存在不足。论文假设低秩近似后的大权重参数对推理能力至关重要,但缺乏对这一假设的深入理论支持,仅引用了部分相关研究。此外,动态更新掩码的策略未在正文中详细说明,可能导致方法在不同任务或模型上的适应性问题。低秩近似的计算开销也未被充分讨论,尤其是在大规模模型上,这可能抵消部分内存效率优势。

Experiment

论文在多个推理相关任务上评估了LIFT的性能,实验设置如下:

Further Thoughts

LIFT方法通过低秩近似识别主要权重进行稀疏微调的思路具有一定创新性,但其理论基础和实际应用仍需进一步探索。结合论文中提到的局限性,我认为一个有趣的改进方向是自适应秩选择,即针对不同层或不同任务动态调整低秩近似的秩 rr,以更好地捕捉模型的异质性。此外,LIFT是否可以与强化学习方法(如RLHF或GRPO)结合,以在推理能力提升的同时进一步优化对齐和安全性,是一个值得研究的交叉领域。另一个思考点是,LIFT在低秩近似上的计算开销可能通过更高效的矩阵分解算法(如随机SVD)或GPU加速来优化,这与论文结论中的问题相呼应。进一步联系到其他研究领域,LIFT的权重选择策略可能借鉴神经网络剪枝(Pruning)中的重要性评估方法,以更精确地识别关键参数。最后,我认为LIFT的‘遗忘更少’特性可能对持续学习(Continual Learning)领域有启发,尤其是在多任务学习中如何平衡新旧知识的保留与更新,值得后续研究深入挖掘。



Previous Post
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Next Post
R-LoRA: Randomized Multi-Head LoRA for Efficient Multi-Task Learning