Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models

本文研究了口语语言模型（SLM）端到端训练中的灾难性遗忘问题，通过评估模型合并、LoRA缩放因子折扣和经验回放三种策略，发现经验回放最为有效，且结合其他方法可进一步提升性能。

Continual Learning, Large Language Model, Multimodal Systems, Representation Learning, Fine-tuning

Chi-Yuan Hsiao, Ke-Han Lu, Kai-Wei Chang, Chih-Kai Yang, Wei-Chih Chen, Hung-yi Lee

National Taiwan University

Generated by grok-3

Background Problem

口语语言模型（SLM）的端到端训练通常通过多阶段训练将预训练的文本大语言模型（LLM）适应到语音模态，涉及自动语音识别（ASR）、文本转语音（TTS）和口语问答（SQA）等任务。然而，由于各阶段任务和数据分布的显著差异，模型容易发生灾难性遗忘，即丢失之前学到的知识，导致在文本和语音模态上的性能下降。本文旨在研究SLM训练中的灾难性遗忘问题，并评估三种缓解策略以平衡新知识学习和旧知识保留。

Method

本文提出了三种缓解灾难性遗忘的策略，应用于SLM的多阶段训练过程中：

模型合并：通过聚合不同训练阶段的模型权重（如线性组合、TIES和DARE方法），试图保留各阶段的知识，减轻遗忘影响。然而，权重分配和方法选择可能对结果有较大影响，论文中参数设置较为固定，缺乏更广泛的探索。
LoRA缩放因子折扣：在推理时降低LoRA适配器的缩放因子 $\alpha$ ，以减弱适配器对模型输出的影响，从而保留原始预训练知识。但论文仅测试了有限的 $\alpha$ 值（如15和14），可能未充分挖掘该方法的潜力。
经验回放：在每个训练阶段，通过从之前数据集（包括初始预训练数据）中随机采样数据，构建增强数据集进行多任务学习，以巩固旧知识。采样比例 $s=0.005$ ，但论文未讨论该比例的选择依据及其对结果的敏感性。

从方法设计上看，经验回放直接作用于训练过程，理论上更能动态平衡新旧知识，但其计算成本较高；模型合并和LoRA折扣则更偏向于后处理或推理时调整，灵活性较低。我对模型合并的权重分配和LoRA折扣的参数选择持保留态度，认为这些方法可能需要更系统化的调参策略。

Experiment

实验基于LLaMA-3.2-11B-Vision-Instruct模型，采用三阶段训练（ASR、TTS、SQA），使用LibriSpeech和Magpie-Air数据集进行训练，并在Spoken WebQuestions、LLaMA-Questions、Audio Trivia QA和IFEval等数据集上评估文本和语音模态的问答与指令跟随能力。实验设置包括三种缓解策略的单独应用及组合应用，评估指标为准确率（涵盖T2T、S2T、S2S设置）。

结果显示，未采取任何缓解策略时，灾难性遗忘明显，尤其在TTS阶段性能下降最严重。经验回放表现最佳，在所有设置下均显著提升了知识保留和新任务性能（如S2T和S2S准确率分别达到50.3%和28.7%，远高于其他单一策略）。结合其他策略（如LoRA折扣）后，部分场景下性能进一步提升，但模型合并在S2S设置下表现不稳定。

实验设计较为合理，涵盖了多模态任务和数据集，但存在局限性：数据集种类较少，可能无法代表更广泛的语音任务分布；参数设置（如LoRA的 $\alpha$ 值和经验回放的采样比例）缺乏充分调优，可能影响结果的普适性。此外，实验未探讨不同模型规模或架构对策略效果的影响，结论的泛化性存疑。

Further Thoughts

本文的研究为SLM训练中的灾难性遗忘问题提供了有价值的视角，但其策略是否适用于其他多模态任务或更复杂的训练流程仍需进一步验证。例如，经验回放虽然有效，但其计算成本较高，是否可以通过更高效的采样策略或数据选择机制来优化？此外，灾难性遗忘问题可能不仅仅是训练策略的问题，是否可以通过改进模型架构（如模块化设计或任务特定适配器）来从根本上减少遗忘？与近期一些关于多模态基础模型（如Vision Foundation Model）的研究相比，本文未涉及视觉模态的集成，而语音与视觉的联合训练可能引入更复杂的遗忘模式，值得未来探索。最后，我认为本文的策略可以与参数高效微调方法（如Parameter-Efficient Fine-Tuning）结合，进一步降低训练成本并提升知识保留效果。