ABBA 提出了一种新型参数高效微调方法,通过两个独立低秩矩阵的哈达玛积重新参数化权重更新,在保持参数效率的同时显著提升表达能力和性能,实验表明其在多个语言模型和任务上优于现有 PEFT 方法。
Parameter-Efficient Fine-Tuning, Large Language Model, Fine-tuning, Efficiency, Representation Learning
Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma
Mohamed bin Zayed University of Artificial Intelligence, Duke University, Massachusetts Institute of Technology
Generated by grok-3
Background Problem
大型语言模型(LLMs)在自然语言处理任务中表现出色,但将其高效适应到新任务或领域仍是一个挑战。传统的全参数微调(Full Fine-Tuning)计算和内存开销巨大,因此参数高效微调(PEFT)方法应运而生,通过引入少量可训练参数来减少开销。LoRA 作为主流 PEFT 方法,通过低秩分解更新权重,但其表达能力受限于低秩约束。HiRA 通过哈达玛积与预训练权重结合试图提高表达能力,但仍受限于预训练权重的结构。ABBA 的出发点在于解决现有 PEFT 方法的表达能力限制,提出一种完全解耦于预训练权重的更新方式,以在相同参数预算下实现更高的表达能力和性能提升。
Method
ABBA 是一种新型 PEFT 架构,其核心思想是将权重更新 重新参数化为两个独立可学习的低秩矩阵对的哈达玛积,即 ,其中 , , 为缩放因子。这种方法完全脱离预训练权重 的约束,允许两个矩阵对自由优化,从而在相同参数预算下实现更高的有效秩(高达 )和表达能力。
具体实现步骤包括:
- 初始化策略:第一对矩阵 使用预训练权重 的截断 SVD 初始化,第二对 采用 LoRA 风格的初始化( 为零, 为 Kaiming 均匀分布),以平衡初始稳定性与任务特定探索。
- 高效计算:通过 Khatri-Rao 因子化重写更新公式,避免直接构建完整的 矩阵,从而在内存和计算上与 LoRA 保持相似效率。
- 缩放因子:根据理论推导,设置缩放因子 s_{ABBA} = rac{\alpha_{LoRA}^2}{\sqrt{r_1 r_2}},以确保训练稳定性。
批判性思考:虽然 ABBA 的设计在理论上提高了表达能力,但其依赖于两个低秩矩阵对的哈达玛积可能引入优化复杂性,尤其是在高维权重矩阵中,可能会导致梯度消失或爆炸问题。此外,初始化策略虽然结合了 SVD 和 LoRA 风格,但是否对所有模型和任务都有效仍需更多验证。Khatri-Rao 因子化虽然提高了效率,但其实际应用中的计算开销是否如论文所述那样低,尤其是在大规模模型中,可能存在隐藏成本。
Experiment
ABBA 在多个模型(Llama-3.2 1B/3B, Mistral-7B, Gemma-2 9B)和任务(常识推理和算术推理)上进行了广泛实验,数据集包括 COMMONSENSE170K(涵盖 OBQA, ARC 等八个子任务)、GSM8K 和 MATH。实验设置中,ABBA 的参数数量与 LoRA 等基线方法匹配(通过设置 ),并在 Transformer 的多个组件(如 Query, Key, Value 等)中插入适配器。
结果分析:
- 在常识推理任务中,ABBA 在 Llama-3.2 1B 和 3B 模型上显著优于 LoRA、HiRA 等 PEFT 方法,平均准确率提升明显,甚至在某些任务上超越全参数微调。
- 在算术推理任务中,ABBA 在 Mistral-7B 和 Gemma-2 9B 上同样表现出色,尤其在 GSM8K 和 MATH 数据集上,准确率提升显著,例如在 Mistral-7B 上 GSM8K 准确率从 LoRA 的 61.94% 提升至 66.26%。
- 效率方面,ABBA 的训练内存占用与 LoRA 相当,比全参数微调低 3-3.5 倍,比 HiRA 高效 30-35%,训练时间仅比 LoRA 高 2-3%。
批判性思考:实验结果显示 ABBA 的性能提升是明显的,但实验设置是否全面合理值得商榷。首先,数据集选择集中在 NLP 任务,未涉及视觉或多模态任务,泛化能力存疑。其次,实验中未充分探讨 ABBA 在低资源或极小参数预算下的表现,可能掩盖了其局限性。此外,虽然 ABBA 在大多数任务上优于基线,但部分任务(如 MATH 数据集)的提升幅度较小,是否真正解决了表达能力瓶颈仍需更多证据支持。实验设计中对超参数(如 )的选择进行了验证,但未深入分析其对不同模型架构的影响,可能存在过拟合特定设置的风险。
Further Thoughts
ABBA 的创新点在于通过哈达玛积解耦权重更新与预训练权重的依赖,这种思路是否可以进一步扩展到其他领域,如视觉 Transformer 或多模态模型,值得探索。例如,在视觉模型中,权重矩阵的结构和分布可能与语言模型不同,ABBA 的表达能力提升是否依然显著?此外,ABBA 的哈达玛积结构是否可以与其他 PEFT 方法(如 DoRA 或 PiSSA)结合,进一步优化性能与效率的平衡?另一个有趣的方向是,ABBA 的初始化策略依赖于预训练权重的 SVD 分解,若预训练模型本身存在偏差或噪声,这种初始化是否会引入额外风险?与其他研究(如 LoRA 的扩展工作)相比,ABBA 的理论分析提供了表达能力的概率保证(如 Theorem 3),这为后续研究如何量化 PEFT 方法的表达能力提供了启发,但其实际应用价值仍需在更广泛的场景中验证。