Skip to content
Go back 2505.14238 arXiv logo

ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models

Published:  at  11:47 AM
85.89 🤔

ABBA 提出了一种新型参数高效微调方法,通过两个独立低秩矩阵的哈达玛积重新参数化权重更新,在保持参数效率的同时显著提升表达能力和性能,实验表明其在多个语言模型和任务上优于现有 PEFT 方法。

Parameter-Efficient Fine-Tuning, Large Language Model, Fine-tuning, Efficiency, Representation Learning

Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma

Mohamed bin Zayed University of Artificial Intelligence, Duke University, Massachusetts Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理任务中表现出色,但将其高效适应到新任务或领域仍是一个挑战。传统的全参数微调(Full Fine-Tuning)计算和内存开销巨大,因此参数高效微调(PEFT)方法应运而生,通过引入少量可训练参数来减少开销。LoRA 作为主流 PEFT 方法,通过低秩分解更新权重,但其表达能力受限于低秩约束。HiRA 通过哈达玛积与预训练权重结合试图提高表达能力,但仍受限于预训练权重的结构。ABBA 的出发点在于解决现有 PEFT 方法的表达能力限制,提出一种完全解耦于预训练权重的更新方式,以在相同参数预算下实现更高的表达能力和性能提升。

Method

ABBA 是一种新型 PEFT 架构,其核心思想是将权重更新 ΔW\Delta W 重新参数化为两个独立可学习的低秩矩阵对的哈达玛积,即 ΔW=s(B1A1)/odots(B2A2)\Delta W = s(B_1 A_1) /odots (B_2 A_2),其中 B1,B2RmimesrB_1, B_2 \in \mathbb{R}^{m imes r}, A1,A2RrimesnA_1, A_2 \in \mathbb{R}^{r imes n}ss 为缩放因子。这种方法完全脱离预训练权重 W0W_0 的约束,允许两个矩阵对自由优化,从而在相同参数预算下实现更高的有效秩(高达 r1r2r_1 r_2)和表达能力。

具体实现步骤包括:

批判性思考:虽然 ABBA 的设计在理论上提高了表达能力,但其依赖于两个低秩矩阵对的哈达玛积可能引入优化复杂性,尤其是在高维权重矩阵中,可能会导致梯度消失或爆炸问题。此外,初始化策略虽然结合了 SVD 和 LoRA 风格,但是否对所有模型和任务都有效仍需更多验证。Khatri-Rao 因子化虽然提高了效率,但其实际应用中的计算开销是否如论文所述那样低,尤其是在大规模模型中,可能存在隐藏成本。

Experiment

ABBA 在多个模型(Llama-3.2 1B/3B, Mistral-7B, Gemma-2 9B)和任务(常识推理和算术推理)上进行了广泛实验,数据集包括 COMMONSENSE170K(涵盖 OBQA, ARC 等八个子任务)、GSM8K 和 MATH。实验设置中,ABBA 的参数数量与 LoRA 等基线方法匹配(通过设置 r1=r2=r/2r_1 = r_2 = r/2),并在 Transformer 的多个组件(如 Query, Key, Value 等)中插入适配器。

结果分析

批判性思考:实验结果显示 ABBA 的性能提升是明显的,但实验设置是否全面合理值得商榷。首先,数据集选择集中在 NLP 任务,未涉及视觉或多模态任务,泛化能力存疑。其次,实验中未充分探讨 ABBA 在低资源或极小参数预算下的表现,可能掩盖了其局限性。此外,虽然 ABBA 在大多数任务上优于基线,但部分任务(如 MATH 数据集)的提升幅度较小,是否真正解决了表达能力瓶颈仍需更多证据支持。实验设计中对超参数(如 r1,r2r_1, r_2)的选择进行了验证,但未深入分析其对不同模型架构的影响,可能存在过拟合特定设置的风险。

Further Thoughts

ABBA 的创新点在于通过哈达玛积解耦权重更新与预训练权重的依赖,这种思路是否可以进一步扩展到其他领域,如视觉 Transformer 或多模态模型,值得探索。例如,在视觉模型中,权重矩阵的结构和分布可能与语言模型不同,ABBA 的表达能力提升是否依然显著?此外,ABBA 的哈达玛积结构是否可以与其他 PEFT 方法(如 DoRA 或 PiSSA)结合,进一步优化性能与效率的平衡?另一个有趣的方向是,ABBA 的初始化策略依赖于预训练权重的 SVD 分解,若预训练模型本身存在偏差或噪声,这种初始化是否会引入额外风险?与其他研究(如 LoRA 的扩展工作)相比,ABBA 的理论分析提供了表达能力的概率保证(如 Theorem 3),这为后续研究如何量化 PEFT 方法的表达能力提供了启发,但其实际应用价值仍需在更广泛的场景中验证。



Previous Post
Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models
Next Post
Sparsity May Be All You Need: Sparse Random Parameter Adaptation