本文提出Perturb-and-Merge (P&M)框架,通过训练时任务向量扰动和推理时模型凸组合合并,结合LoRA实现参数高效持续学习,在多个基准数据集上显著缓解灾难性遗忘并提升性能。
Continual Learning, Parameter-Efficient Fine-Tuning, Pre-training, Efficiency
Haomiao Qiu, Miao Zhang, Ziyue Qiao, Liqiang Nie
哈尔滨工业大学(深圳), 大湾区大学
Generated by grok-3
Background Problem
持续学习(Continual Learning, CL)旨在让模型在顺序学习多个任务时避免遗忘已学知识。然而,现有CL方法通常仅依赖最新任务的参数进行推理,容易导致灾难性遗忘。受模型合并技术(Model Merging)在多任务整合中的成功启发,本文提出了一种新的框架,试图通过将模型合并引入CL范式来缓解遗忘问题,解决如何在不访问旧任务数据的情况下保持旧任务性能并适应新任务的核心挑战。
Method
本文提出了Perturb-and-Merge (P&M)框架,分为两个阶段:
- 训练阶段(Train with Perturbation):在每个任务训练时,从前一任务的推理参数开始,沿任务向量方向引入随机扰动,近似正则化项(基于损失函数的Hessian矩阵),以减少模型合并时的参数冲突。这种扰动通过对称有限差分近似二次项,避免了额外的正向或反向计算,降低了计算成本。
- 推理阶段(Infer after Merging):在任务训练完成后,通过凸组合将前一任务的推理模型与当前任务的优化模型合并,得到新的推理参数。合并系数通过最小化所有任务的总损失增量理论推导得出闭合解,依赖于Hessian矩阵(近似为对角经验Fisher信息矩阵)。
- 结合LoRA:为降低内存开销,P&M与参数高效微调方法LoRA结合,仅更新低秩矩阵,减少存储需求。 批判性思考:虽然理论推导为合并系数提供了闭合解,但对Hessian矩阵的对角近似可能无法准确捕捉损失曲面,尤其是在高维参数空间中,可能导致次优合并。此外,扰动策略的随机性可能在任务数量增加时引入不稳定因素,论文未充分讨论其长期影响。
Experiment
实验在多个持续学习基准数据集(ImageNet-R、ImageNet-A、DomainNet、CIFAR100、CUB200)上进行,任务数量从5到20不等,评估指标包括平均准确率(Acc)和随时平均准确率(AAA)。实验设置基于ViT-B/16预训练模型,结合LoRA(rank=10)进行参数高效微调。结果显示,LoRA-P&M在所有设置下均优于基线LoRA(例如在ImageNet-R 10任务设置中提升14.23%)以及其他最先进的CL方法(如SD-LoRA,提升高达2.61%),同时在模型合并方法中也表现出色(例如在CUB-10上比CoFIMA提升3.86%)。通过损失景观可视化和消融研究,论文进一步验证了任务向量缩放减少遗忘、凸组合位于低损失区域以及扰动促进平坦极小值的作用。 批判性思考:实验设置较为全面,涵盖了多个数据集和任务数量,但任务序列较短(最多20个),未充分测试在更长任务序列下的遗忘问题,可能高估了方法的鲁棒性。此外,虽然结合LoRA降低了内存开销,但未详细分析其对性能的具体影响,缺乏对计算成本和内存使用的量化对比。
Further Thoughts
P&M框架通过模型合并和扰动策略为持续学习提供了一个新颖视角,但其理论基础依赖的对角Fisher信息矩阵近似可能在复杂模型或长任务序列中失效,未来可以探索更精确的曲率估计方法,如基于Krylov子空间的Hessian近似。此外,扰动策略虽然计算高效,但其随机性可能在任务数量增加时累积误差,是否可以通过自适应调整扰动强度或方向来提高稳定性值得研究。另一个有趣的方向是将P&M与其他CL方法(如经验回放)结合,以进一步减少遗忘,尤其是在数据隐私限制较少的场景下。跨领域思考,P&M的任务向量扰动思路可能启发联邦学习中客户端模型聚合的优化,特别是在客户端数据异构性较高时,通过类似扰动减少模型冲突,或许能提升全局模型性能。