Skip to content
Go back 2504.21190 arXiv logo

TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts

Published:  at  12:11 AM
76.46 🤔

本文提出TT-LoRA MoE框架,通过两阶段训练结合张量分解的低秩适配器和动态稀疏路由机制,以极低的参数量(LoRA的2%,AdapterFusion的0.03%)实现多任务NLP分类任务的竞争性性能,平均准确率提升约4个百分点,同时解决任务干扰和知识遗忘问题。

Parameter-Efficient Fine-Tuning, Sparse Mixture of Experts, Multi-Task Learning, Dynamic Routing, Low-Rank Adaptation, Computational Efficiency

Pradip Kunwar, Minh N. Vu, Maanak Gupta, Mahmoud Abdelsalam, Manish Bhattarai

Tennessee Tech University, Los Alamos National Laboratory, Greensboro, North Carolina, USA

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理(NLP)中取得了显著进展,但其部署面临高计算成本和内存需求的挑战,尤其是在多任务或动态场景下,全参数微调成本高昂且易导致灾难性遗忘和任务间干扰。参数高效微调(PEFT)方法(如LoRA和TT-LoRA)通过仅更新少量参数缓解了这些问题,但通常需要手动选择任务特定的适配器,限制了可扩展性。另一方面,专家混合(MoE)架构通过动态路由输入到专门模块来增强模型容量,但传统MoE系统在专家数量增加时面临联合训练开销、容量稀释和训练不平衡等问题。本文提出TT-LoRA MoE框架,旨在通过结合PEFT的参数效率和MoE的动态路由优势,解决多任务学习中的可扩展性、任务干扰和知识遗忘问题。

Method

TT-LoRA MoE提出了一种两阶段训练框架,结合参数高效微调与稀疏专家混合:

Experiment

实验分为两个部分:

Further Thoughts

TT-LoRA MoE在参数效率和多任务适应性上的创新令人印象深刻,但其实际应用中的局限性值得进一步探讨。例如,论文未充分讨论TT-LoRA在某些任务(如BoolQ)上性能显著低于LoRA的原因,这可能与张量分解对复杂任务表示能力的限制有关,未来可结合其他PEFT方法(如QLoRA)进行混合优化。此外,路由器依赖基础模型表示的选择机制在任务数量极多时可能面临瓶颈,是否可以通过引入分层路由或基于任务聚类的预筛选机制来提升可扩展性?另外,论文提到的未来方向中,异构任务类型(如生成任务与分类任务混合)的适应性是一个关键问题,可参考近期Vision Language Model领域中多模态路由的研究,探索跨任务类型的专家融合策略。最后,TT-LoRA MoE的参数效率优势在边缘设备部署中可能有巨大潜力,但需要进一步测试其在低资源环境下的推理延迟和内存占用,与Federated Learning等分布式学习范式结合或许能进一步扩展其应用场景。



Previous Post
Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework
Next Post
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think