Tag: Sparse Mixture of Experts
All the articles with the tag "Sparse Mixture of Experts".
-
TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts
本文提出 TT-LoRA MoE 框架,通过两阶段解耦的专家训练和路由机制,实现了参数高效的多任务学习,显著减少计算开销并保持性能。
-
TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts
本文提出TT-LoRA MoE框架,通过两阶段训练结合张量分解的低秩适配器和动态稀疏路由机制,以极低的参数量(LoRA的2%,AdapterFusion的0.03%)实现多任务NLP分类任务的竞争性性能,平均准确率提升约4个百分点,同时解决任务干扰和知识遗忘问题。