ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation

ShareLoRA通过在模型层间共享低秩矩阵A或B，显著减少可训练参数量（相较LoRA减少44%-96%），并在多种模型和任务中保持甚至超越LoRA的性能，展现出高效性、适应性和跨域鲁棒性。

Parameter-Efficient Fine-Tuning, Low-Rank Adaptation, Large Language Model, Fine-tuning, Efficiency

Yurun Song, Junchen Zhao, Ian G. Harris, Sangeetha Abdu Jyothi

UC Irvine, VMware Research

Generated by grok-3

Background Problem

随着预训练语言模型（PLMs）和大型语言模型（LLMs）的规模不断扩大，传统全参数微调方法因其高资源消耗和时间成本而变得不切实际。参数高效微调（PEFT）技术，如LoRA，通过仅调整模型参数的子集来实现特定任务的适应，同时保持与全参数微调相当的性能。然而，现有PEFT方法仍面临内存开销大、收敛速度慢以及跨域适应性不足的问题。ShareLoRA旨在通过共享低秩矩阵来进一步减少可训练参数量（相较于LoRA减少44%至96%），同时提升模型在不同任务和领域中的适应性和鲁棒性，解决资源受限环境下的高效微调需求。

Method

ShareLoRA是一种基于LoRA的参数高效微调方法，其核心思想是通过在模型的不同层间共享低秩权重矩阵A或B（或两者同时共享）来减少可训练参数量，同时保持模型的适应能力。具体实现包括以下配置：

ShareA配置：矩阵A在所有层间共享，每层使用独立的矩阵B，权重更新公式为 $\Delta W_i = \alpha A B_i$ ，其中A统一降低维度，B_i允许层特定的输出变换。
ShareB配置：矩阵B在所有层间共享，每层使用独立的矩阵A，权重更新公式为 $\Delta W_i = \alpha A_i B$ ，B统一扩展维度，A_i适应各层输入特性。
ShareAB配置：矩阵A和B均在所有层间共享，权重更新公式为 $\Delta W = \alpha A B$ ，极大减少参数量，但可能限制模型表达能力。
自注意力层共享：在自注意力层中，ShareA配置可进一步共享查询（Q）、键（K）和值（V）的降维矩阵（如 $Q_i = X_i A_Q B_{Q_i}$ ），以统一处理输入维度。

批判性思考：虽然共享矩阵的理念在理论上减少了冗余，但共享B或AB可能导致关键信息丢失，尤其是在生成任务中，矩阵B的上投影作用更为重要，共享可能限制模型对复杂模式的捕捉能力。此外，论文未详细讨论共享矩阵的初始化策略及其对性能的影响，这可能是方法的一个潜在弱点。

Experiment

ShareLoRA在多个模型（RoBERTa, GPT-2, LLaMA系列）和任务（自然语言理解NLU、自然语言生成NLG、少样本/零样本任务）上进行了广泛实验，数据集包括GLUE基准、E2E NLG挑战、Alpaca、MATH等，实验设置与LoRA和QLoRA等方法保持一致，硬件环境为Nvidia A6000和RTX 3090 GPU。

参数效率与性能：ShareA在LLaMA 13B上将可训练参数减少44%，MMLU得分从47.60提升至48.15；在GPT-2 Medium上参数减少43%，BLEU得分从69.5提升至69.7。ShareB和ShareAB配置表现不如ShareA，表明共享矩阵B可能损失更多关键信息。
模型适应性：在GLUE小数据集（如MRPC, RTE）上，ShareA性能提升0.2%-0.5%，显示出对过拟合场景的正则化效应；在转移学习任务中，ShareA也优于LoRA和其他PEFT方法。
跨域鲁棒性：在LLaMA2模型的零样本和少样本任务中，ShareA在MMLU上提升0.5%-0.7%，在GSM8K等任务上提升高达2.5%。
持续适应性：在持续微调实验中，ShareA在GSM8K上提升1.2%，在MMLU-Pro上提升0.5%-0.86%，显示出多任务学习中的鲁棒性。

批判性分析：实验设置较为全面，涵盖了多种模型和任务，但部分数据集（如GLUE中的小数据集）可能已接近过拟合，ShareA的性能提升可能更多来自正则化效应，而非真正的泛化能力提升。此外，内存节省在小型模型上不明显，仅在LLaMA等大型模型上显著，限制了方法的广泛适用性。实验未充分探讨共享矩阵初始化对性能的影响，也未详细分析多GPU并行训练中的同步开销。

Further Thoughts

ShareLoRA的共享矩阵理念为参数高效微调提供了一个有前景的方向，但其实际应用仍需进一步探索。例如，是否可以结合量化技术（如QLoRA）进一步减少内存占用，尤其是在边缘设备上的部署？此外，动态共享策略（即根据任务复杂度或层特性选择共享矩阵）可能比静态共享更有效，这可以作为未来研究方向。另一个有趣的点是，ShareLoRA的共享矩阵设计是否能启发其他领域的模型压缩技术，例如在计算机视觉模型中共享卷积核参数，以减少计算量同时保持性能？此外，与最近的一些工作（如动态低秩适应的研究）结合，ShareLoRA可能在持续学习场景中进一步提升知识保留能力，特别是在资源受限的在线学习环境中。