本文提出MoL框架,通过对领域语料使用CE损失和对通用语料使用KL散度损失的双重优化策略,显著提升大型语言模型的领域专长,同时有效保留通用能力,并在医学领域任务中取得优异表现。
Large Language Model, Continual Learning, Pre-training, Fine-tuning, Reasoning
Jingxue Chen, Qingkun Tang, Qianchun Lu, Siyuan Fang
ZTE Corporation, Nanjing, China, Beijing University of Posts and Telecommunications, Beijing, China
Generated by grok-3
Background Problem
大型语言模型(LLMs)在通用任务中表现出色,但在领域特定应用中常面临幻觉和准确性不足的问题。持续预训练(CPT)策略被提出以解决这些问题,但面临两大挑战:一是领域偏向数据可能导致通用语言能力的退化,甚至灾难性遗忘;二是通用语料与领域语料的最佳混合比例难以确定,常导致次优性能。本文提出了一种新的训练框架Mixture of Losses(MoL),通过解耦领域语料和通用语料的优化目标,旨在增强领域专长同时保留通用能力。
Method
MoL框架的核心思想是通过双重损失函数分别优化领域特定语料和通用语料的训练过程,具体如下:
- 领域语料优化:对领域特定语料采用交叉熵(CE)损失,确保模型有效学习领域知识,强调精确的知识获取。
- 通用语料优化:对通用语料采用KL散度损失,通过与基础模型的概率分布对齐,保持模型的通用能力,避免灾难性遗忘。
- 损失函数形式:对于每个序列,损失函数定义为: 其中和分别表示领域语料和通用语料,为交叉熵损失,为KL散度损失。
- 细节调整:引入一个小的系数(默认0.01)对损失函数进行微调,以确保训练稳定性;此外,采用逆向KL散度和跨模型概率聚合方案以减少低概率区域的过估计和GPU内存消耗。
批判性思考:虽然双重损失函数的概念有创新性,但其理论依据(如KL散度如何具体防止能力退化)未充分探讨,更多依赖实验结果而非机制分析。此外,值的选择似乎过于经验化,缺乏系统性调参分析,可能影响方法的可重复性。
Experiment
实验基于开源模型Qwen3-8B,在医学领域进行持续预训练(CPT),使用混合数据集(领域语料包括medical-o1-sft、MedicationQA和MedQA,通用语料为Light-r1)。
- 实验设置:采用低秩适应(LoRA)方法训练,语料比例主要测试1:1,并对比了1:0.5、1:1.5和1:2等不同比例。评估涵盖领域任务(MedQA、MMLU-cli)、通用任务(MMLU、C-Eval)、编码任务(MBPP、HumanEval)和数学任务(MATH-500、AIME24/25),分别在思考和非思考模式下进行。
- 结果:在1:1比例下,模型在领域任务和通用任务上均有提升,如MedQA准确率从74.87%提升至77.25%,C-Eval从67.45%提升至77.65%。数学任务在思考模式下表现尤为突出,MATH-500准确率从96.60%提升至97.80%,AIME25从66.67%提升至73.33%。消融实验表明,使用KL散度的MoL框架在通用能力保持上显著优于纯CE损失方法,尤其在数学任务中,非思考模式下MATH-500准确率提升27.9%,思考模式下AIME25提升83.3%。
- 分析与批判:实验设置较为全面,涵盖多任务评估,但主要局限在于领域语料可能已被基础模型暴露,导致性能提升幅度有限。此外,实验仅聚焦医学领域,缺乏跨领域验证,方法的泛化性存疑。1:1比例被认为是最佳,但不同比例间的性能差异较小,是否真正‘最优’需要更多理论支持而非仅依赖实验数据。内部语料实验虽补充了验证,但未公开数据细节,影响可信度。
Further Thoughts
MoL框架的双重损失优化策略提供了一个有趣的视角,特别是在领域适应与通用能力平衡方面。然而,其依赖于KL散度来保持通用能力的机制尚不明确,是否可以通过更深入的理论分析或可视化手段揭示其内在作用?此外,论文中提到的AIME推理能力和指令跟随能力的意外提升是一个值得探索的现象,可能是通用语料训练中的某种涌现能力(Emergent Abilities)所致,未来可以结合更多数据集和任务类型进行系统性研究。另一个思考方向是,MoL框架是否可以扩展到多领域持续学习场景,例如通过动态调整损失函数权重或语料比例来适应多个领域需求?这可能需要与联邦学习(Federated Learning)或元学习(Meta-Learning)等方法结合,以实现更灵活的模型适应性。最后,考虑到领域语料可能已被基础模型暴露的问题,是否可以通过合成数据(Synthetic Data)或数据增强(Data Augmentation)手段进一步提升训练效果,值得进一步探索。