Skip to content
Go back 2505.13811 arXiv logo

Context-Free Synthetic Data Mitigates Forgetting

Published:  at  11:15 AM
86.17 🤔

本文提出了一种上下文无关合成数据(CFS)方法,通过生成无条件样本并结合微调和预训练损失,缓解大型语言模型在数据不可知场景下的灾难性遗忘,实验在Olmo-1B和R1-Distill-Llama-8B模型上验证了其有效性。

Large Language Model, Fine-tuning, Continual Learning, Synthetic Data, Reasoning

Parikshit Bansal, Sujay Sanghavi

University of Texas at Austin

Generated by grok-3

Background Problem

大型语言模型(LLMs)在微调过程中常因模型参数偏移而导致原有任务性能下降,这种现象被称为灾难性遗忘(catastrophic forgetting)。特别是在数据不可知场景下,即无法访问模型的原始训练数据或训练方法时,缓解遗忘问题变得尤为困难。本文旨在解决这一问题,探索如何在微调新任务时保持模型的预训练能力(如零样本性能)或推理能力(如数学推理),同时提升下游任务表现。

Method

本文提出了一种基于上下文无关合成数据(Context-Free Synthetic Data, CFS)的方法来缓解灾难性遗忘,具体如下:

Experiment

本文在两个场景下验证了CFS方法的有效性:

Further Thoughts

CFS方法提供了一个有趣的视角,即通过合成数据模拟原始模型分布来缓解遗忘,但其理论基础(KL散度估计)与实际操作(上下文无关生成)之间的联系仍需更严谨的数学推导和验证。未来可以探索生成数据的多样性和质量对遗忘缓解的影响,例如是否可以通过更结构化的生成策略(如基于特定任务分布)进一步提升效果。此外,CFS方法与参数高效微调技术(如LoRA)的结合可能是一个有前景的方向,既能降低计算成本,又能提升遗忘缓解效果。另一个值得思考的点是,CFS是否可以扩展到多任务学习或联邦学习场景,在这些场景中,模型需要在多个分布间平衡性能,而数据不可知问题更为突出。最后,考虑到生成数据的计算开销,是否可以通过离线生成并缓存合成数据的方式优化效率,这可能与生成式AI领域(如扩散模型)的一些技术有交叉启发。



Previous Post
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
Next Post
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models