Skip to content
Go back 2411.19557 arXiv logo

Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning

Published:  at  01:15 PM
87.30 🤔

本文提出LoRA-SB方法,通过基于全参数微调第一步梯度近似的初始化策略优化低秩微调,在参数量减少27-90倍的情况下,显著超越LoRA-XS并接近全参数微调性能。

Parameter-Efficient Fine-Tuning, Low-Rank Adaptation, Large Language Model, Fine-Tuning, Efficiency

Kaustubh Ponkshe, Raghav Singhal, Eduard Gorbunov, Alexey Tumanov, Samuel Horvath, Praneeth Vepakomma

Mohamed bin Zayed University of Artificial Intelligence, Georgia Institute of Technology, Massachusetts Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)的微调在特定任务上表现出色,但全参数微调(Full Fine-Tuning, FT)计算成本高昂,参数高效微调(PEFT)方法如LoRA通过低秩更新显著减少了参数量,却往往牺牲了性能。论文聚焦于这一核心问题:如何设计一种低秩方法,既能大幅减少参数量,又能达到接近全参数微调的性能?作者基于LoRA-XS架构(通过在固定矩阵B和A之间插入一个可训练的r×r矩阵R来减少参数),分析其局限性(如梯度近似不足、初始化敏感性和超参数依赖),并提出了一种新的初始化策略来解决这些问题。

Method

论文提出了LoRA-SB方法,核心在于通过一种精心设计的初始化策略来模拟全参数微调的优化过程,具体如下:

Experiment

论文在多个NLP任务上进行了广泛实验,具体设置和结果如下:

Further Thoughts

LoRA-SB提出了一种有趣的初始化策略,通过捕捉全参数微调的初始更新方向来提升低秩微调性能,这一思路值得进一步探索,尤其是在如何动态调整低秩子空间以适应训练过程中的梯度变化方面。论文未讨论的一个潜在方向是结合自适应秩选择(如AdaLoRA)或量化技术(如QLoRA),以进一步提升效率和性能。此外,初始化依赖第一步梯度的假设可能在某些任务(如多阶段学习或分布偏移较大的场景)中失效,未来可以探索基于多步梯度或任务特异性先验的初始化方法。另一个值得思考的点是,LoRA-SB在视觉语言模型(VLM)或跨模态任务上的表现如何?其固定矩阵B和A的设计是否会限制多模态数据的复杂表示学习?这些问题可以与近期Vision Transformer领域的低秩适配研究结合,探索更广义的PEFT方法。最后,论文提到的超参数独立性是一个亮点,但实际应用中可能仍需针对不同优化器或学习率进行微调,这一点在更广泛的实验中应被验证。



Previous Post
Scalable Complexity Control Facilitates Reasoning Ability of LLMs
Next Post
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures