本文提出MoRE方法,通过将LoRA的不同秩视为专家并设计自适应秩选择器,显著提升了大型语言模型在多任务场景中的微调效率和性能,同时保持较低的参数量。
Parameter-Efficient Fine-Tuning, Multi-Task Learning, Low-Rank Adaptation, Contrastive Learning, Large Language Model
Dacao Zhang, Kun Zhang, Shimao Chu, Le Wu, Xin Li, Si Wei
Hefei University of Technology, University of Science and Technology of China, iFLYTEK Company Ltd.
Generated by grok-3
Background Problem
随着大型语言模型(LLMs)的快速发展,参数高效微调(PEFT)方法受到广泛关注,旨在以较少的参数实现LLM的高效微调。Low-Rank Adaptation(LoRA)作为一种代表性PEFT方法,通过引入低秩矩阵近似增量调参,在多个场景中表现出色。然而,LoRA依赖固定的秩(rank),在多任务场景中缺乏灵活性,不同任务可能需要不同秩以达到最佳性能,单独训练多个LoRA模块又会导致计算和存储成本增加。因此,如何在多任务场景中实现高效的LLM微调仍是一个挑战。本文提出了一种新方法MoRE,旨在通过自适应秩选择和专家混合机制解决这一问题。
Method
MoRE(Mixture of Low-Rank Experts)是一种针对多任务PEFT的新方法,其核心思想是将LoRA模块中的不同秩视为低秩专家(low-rank experts),并通过以下步骤实现自适应多任务微调:
- 任务嵌入(Task Embedding):为每个任务分配一个嵌入向量,通过对比学习(Contrastive Learning, CL)优化,确保嵌入能捕捉任务特性及任务间差异。
- 自适应秩选择器(Adaptive Rank Selector):基于任务嵌入,利用门控网络(Gating Network)计算每个任务对不同秩专家的概率分布,选择概率最高的秩作为该任务的专家,并通过直通估计器(Straight-Through Estimator, STE)解决不可导问题,确保梯度回传。
- 专家共享与区分:通过LoRA矩阵的重叠部分共享任务间的公共信息,非重叠部分保留任务特定信息,同时引入线性缩放机制平衡低秩部分的更新频率。
- 平衡数据采样(Balanced Data Sampling):针对多任务场景中数据集大小不平衡问题,设计采样权重策略,确保小数据集在微调中得到充分关注。 然而,我对自适应秩选择器的实际效果持保留态度:其依赖任务嵌入和门控网络的准确性,但在任务复杂性高或任务间相关性弱时,可能无法有效分配秩,导致性能波动。此外,STE的使用虽然解决了梯度问题,但可能引入近似误差,影响训练稳定性。
Experiment
实验在多个多任务基准数据集上进行,包括GLUE基准(评估自然语言理解任务)和常识推理任务(如BoolQ, PIQA等),同时测试了少样本领域迁移能力。使用的骨干模型包括LLaMA2-7B和T5-base,与多种基线方法(如LoRA, MultiLoRA, MixLoRA, MOELoRA等)进行对比。
- 结果:在GLUE基准上,MoRE以较少的参数(与LoRA相当)取得了显著优于传统LoRA及其变体的性能(平均准确率提升至87.3%),在LLaMA2-7B上的表现尤为突出(平均准确率88.8%)。在常识推理任务中,MoRE也以82.7%的平均准确率领先。在少样本迁移任务中,MoRE展现出较强的泛化能力。
- 实验设计分析:实验设置较为全面,涵盖了多任务理解、推理和少样本迁移场景,数据集选择合理。然而,实验存在一些不足:首先,未在更大规模模型(如13B或以上)上测试,限制了方法普适性的验证;其次,对生成任务的探索仅在附录中提及,缺乏详细结果支持;此外,基线方法中部分参数量较大的方法(如MultiLoRA)性能未显著优于MoRE,但MoRE的推理延迟问题未被充分量化,可能掩盖了实际应用中的潜在瓶颈。总体而言,实验结果与预期相符,但未能完全解决方法在实际部署中的局限性。
Further Thoughts
MoRE提供了一个有趣的视角,即通过将LoRA的秩作为专家来实现多任务微调的灵活性,这与近年来Mixture-of-Experts(MoE)架构在LLM中的应用趋势相呼应。然而,我认为其核心机制——自适应秩选择器的鲁棒性仍需进一步探索,尤其是在任务数量激增或任务间相关性极低的情况下,门控网络可能面临选择困难,导致性能下降。此外,MoRE的推理延迟问题虽然比传统MoE方法有所改善,但与LoRA的原始目标(即极致高效)仍有差距,未来可以探索与模型剪枝或量化技术结合,进一步降低延迟。另一个值得思考的方向是MoRE与指令微调(Instruction Tuning)的结合:如果任务嵌入能与指令格式化输入结合,是否能进一步提升模型对新任务的零样本适应能力?这可能是一个有前景的跨领域研究方向,值得后续工作深入挖掘。