ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models

ABBA 提出了一种新型参数高效微调方法，通过两个独立低秩矩阵的哈达玛积重新参数化权重更新，在保持参数效率的同时显著提升表达能力和性能，实验表明其在多个语言模型和任务上优于现有 PEFT 方法。

Parameter-Efficient Fine-Tuning, Large Language Model, Fine-tuning, Efficiency, Representation Learning

Raghav Singhal, Kaustubh Ponkshe, Rohit Vartak, Praneeth Vepakomma

Mohamed bin Zayed University of Artificial Intelligence, Duke University, Massachusetts Institute of Technology

Generated by grok-3

Background Problem

大型语言模型（LLMs）在自然语言处理任务中表现出色，但将其高效适应到新任务或领域仍是一个挑战。传统的全参数微调（Full Fine-Tuning）计算和内存开销巨大，因此参数高效微调（PEFT）方法应运而生，通过引入少量可训练参数来减少开销。LoRA 作为主流 PEFT 方法，通过低秩分解更新权重，但其表达能力受限于低秩约束。HiRA 通过哈达玛积与预训练权重结合试图提高表达能力，但仍受限于预训练权重的结构。ABBA 的出发点在于解决现有 PEFT 方法的表达能力限制，提出一种完全解耦于预训练权重的更新方式，以在相同参数预算下实现更高的表达能力和性能提升。

Method

ABBA 是一种新型 PEFT 架构，其核心思想是将权重更新 $\Delta W$ 重新参数化为两个独立可学习的低秩矩阵对的哈达玛积，即 $\Delta W = s(B_1 A_1) /odots (B_2 A_2)$ ，其中 $B_1, B_2 \in \mathbb{R}^{m imes r}$ , $A_1, A_2 \in \mathbb{R}^{r imes n}$ ， $s$ 为缩放因子。这种方法完全脱离预训练权重 $W_0$ 的约束，允许两个矩阵对自由优化，从而在相同参数预算下实现更高的有效秩（高达 $r_1 r_2$ ）和表达能力。

具体实现步骤包括：

初始化策略：第一对矩阵 $(B_1, A_1)$ 使用预训练权重 $W_0$ 的截断 SVD 初始化，第二对 $(B_2, A_2)$ 采用 LoRA 风格的初始化（ $B_2$ 为零， $A_2$ 为 Kaiming 均匀分布），以平衡初始稳定性与任务特定探索。
高效计算：通过 Khatri-Rao 因子化重写更新公式，避免直接构建完整的 $m imes n$ 矩阵，从而在内存和计算上与 LoRA 保持相似效率。
缩放因子：根据理论推导，设置缩放因子 $s_{ABBA} = rac{\alpha_{LoRA}^2}{\sqrt{r_1 r_2}}$ ，以确保训练稳定性。

批判性思考：虽然 ABBA 的设计在理论上提高了表达能力，但其依赖于两个低秩矩阵对的哈达玛积可能引入优化复杂性，尤其是在高维权重矩阵中，可能会导致梯度消失或爆炸问题。此外，初始化策略虽然结合了 SVD 和 LoRA 风格，但是否对所有模型和任务都有效仍需更多验证。Khatri-Rao 因子化虽然提高了效率，但其实际应用中的计算开销是否如论文所述那样低，尤其是在大规模模型中，可能存在隐藏成本。

Experiment

ABBA 在多个模型（Llama-3.2 1B/3B, Mistral-7B, Gemma-2 9B）和任务（常识推理和算术推理）上进行了广泛实验，数据集包括 COMMONSENSE170K（涵盖 OBQA, ARC 等八个子任务）、GSM8K 和 MATH。实验设置中，ABBA 的参数数量与 LoRA 等基线方法匹配（通过设置 $r_1 = r_2 = r/2$ ），并在 Transformer 的多个组件（如 Query, Key, Value 等）中插入适配器。

结果分析：

在常识推理任务中，ABBA 在 Llama-3.2 1B 和 3B 模型上显著优于 LoRA、HiRA 等 PEFT 方法，平均准确率提升明显，甚至在某些任务上超越全参数微调。
在算术推理任务中，ABBA 在 Mistral-7B 和 Gemma-2 9B 上同样表现出色，尤其在 GSM8K 和 MATH 数据集上，准确率提升显著，例如在 Mistral-7B 上 GSM8K 准确率从 LoRA 的 61.94% 提升至 66.26%。
效率方面，ABBA 的训练内存占用与 LoRA 相当，比全参数微调低 3-3.5 倍，比 HiRA 高效 30-35%，训练时间仅比 LoRA 高 2-3%。

批判性思考：实验结果显示 ABBA 的性能提升是明显的，但实验设置是否全面合理值得商榷。首先，数据集选择集中在 NLP 任务，未涉及视觉或多模态任务，泛化能力存疑。其次，实验中未充分探讨 ABBA 在低资源或极小参数预算下的表现，可能掩盖了其局限性。此外，虽然 ABBA 在大多数任务上优于基线，但部分任务（如 MATH 数据集）的提升幅度较小，是否真正解决了表达能力瓶颈仍需更多证据支持。实验设计中对超参数（如 $r_1, r_2$ ）的选择进行了验证，但未深入分析其对不同模型架构的影响，可能存在过拟合特定设置的风险。

Further Thoughts

ABBA 的创新点在于通过哈达玛积解耦权重更新与预训练权重的依赖，这种思路是否可以进一步扩展到其他领域，如视觉 Transformer 或多模态模型，值得探索。例如，在视觉模型中，权重矩阵的结构和分布可能与语言模型不同，ABBA 的表达能力提升是否依然显著？此外，ABBA 的哈达玛积结构是否可以与其他 PEFT 方法（如 DoRA 或 PiSSA）结合，进一步优化性能与效率的平衡？另一个有趣的方向是，ABBA 的初始化策略依赖于预训练权重的 SVD 分解，若预训练模型本身存在偏差或噪声，这种初始化是否会引入额外风险？与其他研究（如 LoRA 的扩展工作）相比，ABBA 的理论分析提供了表达能力的概率保证（如 Theorem 3），这为后续研究如何量化 PEFT 方法的表达能力提供了启发，但其实际应用价值仍需在更广泛的场景中验证。