Skip to content
Go back 2505.00582 arXiv logo

Block Circulant Adapter for Large Language Models

Published:  at  04:34 PM
71.85 🤔

本文提出块循环适配器方法,通过利用块循环矩阵和FFT优化LLM的微调过程,显著降低存储和计算成本,同时通过学习率调整确保训练稳定。

Large Language Model, Parameter-Efficient Fine-Tuning, Efficiency, Pre-training, Fine-tuning

Xinyu Ding, Meiqi Wang, Siyu Liao, Zhongfeng Wang

Sun Yat-sen University

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)的微调由于模型规模庞大而面临巨大挑战,传统全参数微调计算成本高昂,而参数高效微调(PEFT)方法如适配器被广泛采用。本文的工作起点是基于傅里叶域的方法来降低微调成本,具体解决的关键问题是减少存储和计算开销,同时确保训练稳定。作者注意到现有的傅里叶域方法如FourierFT使用2D FFT计算开销大,因此提出利用循环矩阵和一维FFT的特性来优化PEFT方法。

Method

本文提出了一种名为Block Circulant Adapter(BCA)的微调方法,其核心思想是利用块循环矩阵结构来表示权重变化矩阵,从而通过一维FFT操作减少存储和计算复杂度。具体实现包括:首先,通过理论证明和经验模拟分析了块循环矩阵的梯度爆炸风险(Proposition 1-3表明梯度值与块大小p成正比);然后,设计了一种简单的学习率调整启发式方法,即将学习率α除以块大小p(αα/p\alpha \leftarrow \alpha / p),以确保训练稳定;主要步骤为:冻结预训练模型参数,训练块循环矩阵形式的权重变化矩阵,使用FFT加速矩阵向量乘法(根据公式(4):hi=IFFT(j=0q1FFT(ci,j)FFT(xj))\mathbf{h}_i = \text{IFFT}(\sum_{j=0}^{q-1} \text{FFT}(\mathbf{c}_{i,j}) \circ \text{FFT}(\mathbf{x}_j))),并在推理时合并适配器以避免额外开销。

Experiment

实验在多个数据集上验证了BCA的有效性,包括使用RoBERTa-base和RoBERTa-large模型在GLUE基准数据集(CoLA、SST-2、MRPC、STS-B、QNLI、RTE)上进行微调,以及使用LLaMA2-7B模型在Alpaca和GSM8K数据集上测试。此外,附录中还评估了视觉任务(如ViT-base在OxfordPets、CIFAR10等数据集上的性能)。实验设置全面合理:采用多种基线方法(FF、LoRA、VeRA、FourierFT等),进行5次独立运行报告中位数和标准差,指标包括准确率、相关系数等。结果显示,BCA在保持性能的同时显著降低了参数量和FLOPs(如与FourierFT相比,参数量相当但FLOPs减少32倍,与LoRA相比参数量减少16倍),且学习率调整启发式确保了收敛稳定性,实验结果与预期一致,证明了方法的效率和泛化能力。

Further Thoughts

本文的块循环矩阵结构和梯度爆炸风险缓解策略具有广泛的启发性,例如可以扩展到计算机视觉或多模态模型中,如在ViT或其他Transformer变体上应用,以进一步减少计算开销;此外,学习率调整启发式可能启发其他结构化参数化方法(如低位移秩矩阵)的优化,避免类似梯度问题;同时,与FourierFT的比较提示,结合一维FFT的低成本方法可能在资源受限场景中更具优势,未来可探索与其他领域如信号处理或量子计算的交叉应用,以提升模型效率和鲁棒性。



Previous Post
Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement
Next Post
Test-time regression: a unifying framework for designing sequence models with associative memory