Budget-Adaptive Adapter Tuning in Orthogonal Subspaces for Continual Learning in LLMs

本文提出OA-Adapter，一种用于大型语言模型持续学习的新型参数高效方法，通过单阶段端到端训练结合动态预算分配与正交子空间学习，在标准基准上实现更高准确率并减少58.5%的参数使用。

Continual Learning, Parameter-Efficient Fine-Tuning, Large Language Model, Orthogonal Subspace, Dynamic Budget Allocation

Zhiyi Wan, Wanrou Du, Liang Li, Miao Pan, Xiaoqi Qin

Beijing University of Posts and Telecommunications, Pengcheng Laboratory, University of Houston

Generated by grok-3

Background Problem

大型语言模型（LLMs）在持续学习（Continual Learning, CL）场景中常常面临灾难性遗忘问题，即在学习新任务时，之前任务的性能会显著下降。传统的参数高效微调（PEFT）方法（如Adapter和LoRA）虽然降低了单任务微调的计算成本，但在顺序到达的任务中表现不佳。现有的CL方法多在共享参数空间内操作，导致任务间干扰，尤其是在任务分布差异较大的LLM场景中更为严重。近期正交子空间学习方法通过限制任务更新到互斥参数子空间减少了干扰，但通常采用固定预算分配，忽略了任务复杂度和层级需求的异质性，导致参数利用效率低下。此外，现有预算自适应方法多采用多阶段优化，存在目标与预算分配不对齐的问题，增加了计算复杂性。本文提出OA-Adapter，旨在通过单阶段端到端训练，统一动态预算分配与正交子空间学习，解决上述问题。

Method

OA-Adapter是一种用于LLM持续学习的新型参数高效方法，其核心思想是将动态预算分配与正交子空间学习结合，通过单阶段端到端训练同时优化参数效率和知识保留。具体实现如下：

模块结构：基于标准Adapter的瓶颈架构，OA-Adapter去除了偏置项以创建无偏参数空间，并用可训练的对角掩码矩阵Γ替换静态非线性激活函数，用于动态调整瓶颈维度。输出计算公式为 $y = x + \mathcal{W}_2 \cdot \Gamma \cdot \mathcal{W}_1 \cdot x$ ，其中 $\mathcal{W}_1$ 和 $\mathcal{W}_2$ 为投影矩阵， $\Gamma$ 控制维度激活。
动态瓶颈维度适应：通过可训练阈值 $\tau$ 和软阈值机制调整掩码矩阵 $\Gamma$ 的稀疏性，实现维度的双向激活与去激活。具体为 $\gamma_i = \text{sign}(g_i) \cdot \max(|g_i| - \tau, 0)$ ，其中 $\tau$ 随训练更新，确保维度可根据任务需求动态调整，避免固定预算的低效分配。
正交参数子空间约束：通过正交约束确保当前任务的参数子空间与历史任务的子空间正交，公式为 $\langle \mathcal{W}_2^{(t)}[:,i], \widetilde{\mathcal{W}}_2^{(s)}[:,j] \rangle = 0$ （对所有 $s < t$ ），并引入正交正则化损失 $\mathcal{L}_{\text{orth}}^{(s,t)}$ ，以防止灾难性遗忘。
训练目标：总损失为 $\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{task}}^{(t)} + \lambda_{\text{orth}} \cdot \sum_{s < t} \mathcal{L}_{\text{orth}}^{(s,t)}$ ，平衡任务性能与知识保留。 批判性思考：虽然动态预算分配机制在理论上合理，但其依赖可训练阈值 $\tau$ 的收敛性缺乏深入分析，可能在复杂任务序列中导致不稳定。此外，正交约束可能限制模型更新方向的自由度，尤其在任务分布差异较大时，可能导致性能瓶颈，作者未充分探讨这一潜在风险。

Experiment

实验在两个持续学习基准数据集上进行评估：标准CL基准（5个文本分类数据集：AG News, Amazon Reviews等）和大规模任务基准（15个数据集，包括GLUE和SuperGLUE的部分任务）。使用T5-large模型，与多种基线方法（如SeqFT, EWC, O-LoRA, ProgPrompt等）比较，采用平均准确率作为主要指标，报告了三种任务顺序的平均结果。

结果：在标准CL基准上，OA-Adapter平均准确率为76.0%，优于O-LoRA（75.3%）和其他方法，接近多任务学习（MTL）的理论上限（80.0%）。在大规模任务基准上，OA-Adapter得分为69.2%，仍优于O-LoRA（68.7%），但低于ProgPrompt（77.9%）和PerTaskFT（78.1%）。
参数效率：OA-Adapter通过动态预算分配显著减少参数使用量，与O-LoRA相比，在不同初始预算下减少了46.6%-58.5%的参数，同时保持性能优势。
额外分析：实验展示了正交约束有效缓解灾难性遗忘，任务间性能下降显著减少；动态阈值策略优于固定阈值；预算分配在任务和层级间呈现异质性，验证了自适应分配的必要性。
批判性思考：实验设置较为全面，涵盖了不同任务顺序和模型规模（T5-base到T5-XL），但任务顺序仅测试了三种，未充分探索顺序对结果的影响。此外，ProgPrompt在大规模任务上的优越性表明OA-Adapter在任务数量增加时的表现仍有提升空间，可能与正交约束的限制有关。实验结果虽然显示参数效率提升，但未讨论动态分配机制在训练过程中的稳定性或计算开销，这可能是实际应用中的隐患。

Further Thoughts

OA-Adapter提出了一种有趣的思路，将动态预算分配与正交子空间学习结合，为LLM的持续学习提供了一个高效的解决方案。然而，我认为其正交约束可能在任务分布高度异质或任务数量极多时成为性能瓶颈，未来可以探索更灵活的子空间划分策略，例如基于任务相似性的聚类子空间分配。此外，动态阈值机制的收敛性和稳定性分析不足，可能会在实际部署中遇到问题，建议后续工作结合优化理论进一步验证其鲁棒性。另一个值得思考的方向是与联邦学习（Federated Learning）的结合，OA-Adapter的参数效率优势可能在分布式环境中进一步放大，尤其是在资源受限的边缘设备上进行持续学习时。最后，作者提到的任务性能恢复现象（类似于人类记忆的再激活）是一个有趣的观察，未来可以深入研究这种潜在的知识保留机制，或许能启发新的持续学习策略。