Skip to content
Go back 2502.17510 arXiv logo

Recurrent Knowledge Identification and Fusion for Language Model Continual Learning

Published:  at  11:26 AM
88.00 🤔

本文提出Recurrent-KIF框架,通过内外循环机制动态估计参数重要性并迭代融合新旧知识,在持续学习中有效缓解灾难性遗忘并促进知识转移,实验验证其在多个大语言模型上的性能优势。

Continual Learning, Large Language Model, Parameter-Efficient Fine-Tuning, Knowledge Transfer, Catastrophic Forgetting

Yujie Feng, Xujia Wang, Zexin Lu, Shenghong Fu, Guangyuan Shi, Yongxin Xu, Yasha Wang, Philip S. Yu, Xu Chu, Xiao-Ming Wu

The Hong Kong Polytechnic University, Tsinghua University, Peking University, University of Illinois at Chicago

Generated by grok-3

Background Problem

持续学习(Continual Learning, CL)对于大语言模型(LLM)在动态环境中的部署至关重要,其目标是让模型能够从一系列任务中顺序学习新知识,而无需昂贵的重新训练。当前的主要挑战包括灾难性遗忘(Catastrophic Forgetting, CF),即学习新任务时丢失先前任务的知识,以及知识转移(Knowledge Transfer, KT),即利用新任务提升先前任务的表现或反之。现有的模型集成和模型合并方法依赖静态参数重要性估计,难以适应模型参数随训练演变而导致的重要性分布变化,因此在平衡CF和KT方面表现不佳。本文提出Recurrent-KIF框架,旨在通过动态估计参数重要性并迭代融合新旧知识来解决上述问题。

Method

Recurrent-KIF是一个受人类大脑互补学习系统(CLS)理论启发的持续学习框架,通过内外循环机制实现动态参数重要性估计和知识融合:

Experiment

实验在两个持续学习基准数据集上进行:标准CL基准(5个文本分类任务)和长序列基准(15个任务,包含GLUE和SuperGLUE数据集),使用T5-large、T5-xl、LLaMA2-7B和LLaMA2-13B等不同规模模型进行评估。

Further Thoughts

Recurrent-KIF的动态重要性估计和多轮知识融合机制提供了一个有趣的视角,但其依赖内存缓冲区数据的局限性值得进一步探索。未来的研究可以考虑结合生成式回放技术,通过模拟历史任务分布来替代真实数据,从而解决隐私问题。此外,论文中提到的参数重要性分布变化的可视化结果提示我们,任务间的知识共享和特定性可能与模型架构的某些层或模块高度相关,这与近期关于大语言模型中知识定位的研究(如模型剪枝和编辑)有潜在联系,值得深入挖掘以设计更高效的持续学习方法。同时,多轮融合的计算开销问题可能通过自适应调整融合频率或聚焦于关键层来缓解,这可以与模块化模型设计结合,进一步提升框架在大规模模型上的实用性。



Previous Post
Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance
Next Post
M+: Extending MemoryLLM with Scalable Long-Term Memory