本文提出Recurrent-KIF框架,通过内外循环机制动态估计参数重要性并迭代融合新旧知识,在持续学习中有效缓解灾难性遗忘并促进知识转移,实验验证其在多个大语言模型上的性能优势。
Continual Learning, Large Language Model, Parameter-Efficient Fine-Tuning, Knowledge Transfer, Catastrophic Forgetting
Yujie Feng, Xujia Wang, Zexin Lu, Shenghong Fu, Guangyuan Shi, Yongxin Xu, Yasha Wang, Philip S. Yu, Xu Chu, Xiao-Ming Wu
The Hong Kong Polytechnic University, Tsinghua University, Peking University, University of Illinois at Chicago
Generated by grok-3
Background Problem
持续学习(Continual Learning, CL)对于大语言模型(LLM)在动态环境中的部署至关重要,其目标是让模型能够从一系列任务中顺序学习新知识,而无需昂贵的重新训练。当前的主要挑战包括灾难性遗忘(Catastrophic Forgetting, CF),即学习新任务时丢失先前任务的知识,以及知识转移(Knowledge Transfer, KT),即利用新任务提升先前任务的表现或反之。现有的模型集成和模型合并方法依赖静态参数重要性估计,难以适应模型参数随训练演变而导致的重要性分布变化,因此在平衡CF和KT方面表现不佳。本文提出Recurrent-KIF框架,旨在通过动态估计参数重要性并迭代融合新旧知识来解决上述问题。
Method
Recurrent-KIF是一个受人类大脑互补学习系统(CLS)理论启发的持续学习框架,通过内外循环机制实现动态参数重要性估计和知识融合:
- 核心思想:通过内循环快速适应新任务并识别重要参数,外循环基于最新模型状态动态更新历史任务的重要性分布,并通过多轮融合新旧知识来缓解CF并促进KT。
- 内循环(Inner Learner):从当前任务数据中采样批量数据,在Q次迭代中快速更新模型参数,计算任务向量表示新任务知识,并通过梯度-权重乘积的指数移动平均方法估计参数重要性分布。
- 外循环(Outer Learner):利用内存缓冲区中的历史任务数据,更新模型参数以获取历史任务向量,并基于最新模型状态动态计算历史任务重要性分布,通过指数平滑减少估计方差。
- 知识融合:基于重要性分布生成二进制掩码和,选择重要参数进行融合,更新模型参数为,从而过滤冗余信息、保留任务特定知识并合并共享知识。
- 关键问题:依赖内存缓冲区数据更新历史重要性分布可能在隐私受限场景中受限;多轮融合增加了计算复杂性,尤其在大模型上可能不具扩展性;重要性估计的准确性和稳定性依赖于超参数(如平滑因子)设置,缺乏理论依据支持最优选择。
Experiment
实验在两个持续学习基准数据集上进行:标准CL基准(5个文本分类任务)和长序列基准(15个任务,包含GLUE和SuperGLUE数据集),使用T5-large、T5-xl、LLaMA2-7B和LLaMA2-13B等不同规模模型进行评估。
- 设置:每个任务训练数据采样1000个实例,验证集每类500个实例,内存缓冲区存储2%的历史数据用于回放,实验结果为三种任务顺序的平均值。评估指标包括整体性能(OP)和后向转移(BWT),分别衡量最终任务后的平均表现和对先前任务的遗忘程度。
- 结果:在T5-large模型上,Recurrent-KIF在标准CL基准和长序列基准上的OP分别为78.4%和77.8%,BWT为-2.8%和-3.6%,优于大多数基线方法(如O-LoRA、TaSL、VR-MCL),相较MIGU的OP提升约1.5%。在不同规模模型上,Recurrent-KIF保持一致的性能优势。
- 分析与问题:虽然结果显示Recurrent-KIF在缓解CF和促进KT方面有效,但与最先进方法(如MIGU)的改进幅度较小,实际意义有限;实验未充分探讨内存缓冲区大小对性能的影响,隐私受限场景下的适用性存疑;多轮融合的计算开销未在实验中量化,尤其是在大模型上的扩展性问题未被解决;消融研究表明动态重要性估计和二进制掩码策略对性能至关重要,但超参数(如融合次数Q)的选择对结果影响较大,缺乏系统性优化指导。
Further Thoughts
Recurrent-KIF的动态重要性估计和多轮知识融合机制提供了一个有趣的视角,但其依赖内存缓冲区数据的局限性值得进一步探索。未来的研究可以考虑结合生成式回放技术,通过模拟历史任务分布来替代真实数据,从而解决隐私问题。此外,论文中提到的参数重要性分布变化的可视化结果提示我们,任务间的知识共享和特定性可能与模型架构的某些层或模块高度相关,这与近期关于大语言模型中知识定位的研究(如模型剪枝和编辑)有潜在联系,值得深入挖掘以设计更高效的持续学习方法。同时,多轮融合的计算开销问题可能通过自适应调整融合频率或聚焦于关键层来缓解,这可以与模块化模型设计结合,进一步提升框架在大规模模型上的实用性。