Skip to content
Go back 2505.12043 arXiv logo

MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities

Published:  at  11:10 AM
87.03 🤔

本文提出MoL框架,通过对领域语料使用CE损失和对通用语料使用KL散度损失的双重优化策略,显著提升大型语言模型的领域专长,同时有效保留通用能力,并在医学领域任务中取得优异表现。

Large Language Model, Continual Learning, Pre-training, Fine-tuning, Reasoning

Jingxue Chen, Qingkun Tang, Qianchun Lu, Siyuan Fang

ZTE Corporation, Nanjing, China, Beijing University of Posts and Telecommunications, Beijing, China

Generated by grok-3

Background Problem

大型语言模型(LLMs)在通用任务中表现出色,但在领域特定应用中常面临幻觉和准确性不足的问题。持续预训练(CPT)策略被提出以解决这些问题,但面临两大挑战:一是领域偏向数据可能导致通用语言能力的退化,甚至灾难性遗忘;二是通用语料与领域语料的最佳混合比例难以确定,常导致次优性能。本文提出了一种新的训练框架Mixture of Losses(MoL),通过解耦领域语料和通用语料的优化目标,旨在增强领域专长同时保留通用能力。

Method

MoL框架的核心思想是通过双重损失函数分别优化领域特定语料和通用语料的训练过程,具体如下:

批判性思考:虽然双重损失函数的概念有创新性,但其理论依据(如KL散度如何具体防止能力退化)未充分探讨,更多依赖实验结果而非机制分析。此外,α\alpha值的选择似乎过于经验化,缺乏系统性调参分析,可能影响方法的可重复性。

Experiment

实验基于开源模型Qwen3-8B,在医学领域进行持续预训练(CPT),使用混合数据集(领域语料包括medical-o1-sft、MedicationQA和MedQA,通用语料为Light-r1)。

Further Thoughts

MoL框架的双重损失优化策略提供了一个有趣的视角,特别是在领域适应与通用能力平衡方面。然而,其依赖于KL散度来保持通用能力的机制尚不明确,是否可以通过更深入的理论分析或可视化手段揭示其内在作用?此外,论文中提到的AIME推理能力和指令跟随能力的意外提升是一个值得探索的现象,可能是通用语料训练中的某种涌现能力(Emergent Abilities)所致,未来可以结合更多数据集和任务类型进行系统性研究。另一个思考方向是,MoL框架是否可以扩展到多领域持续学习场景,例如通过动态调整损失函数权重或语料比例来适应多个领域需求?这可能需要与联邦学习(Federated Learning)或元学习(Meta-Learning)等方法结合,以实现更灵活的模型适应性。最后,考虑到领域语料可能已被基础模型暴露的问题,是否可以通过合成数据(Synthetic Data)或数据增强(Data Augmentation)手段进一步提升训练效果,值得进一步探索。



Previous Post
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
Next Post
Not All Correct Answers Are Equal: Why Your Distillation Source Matters