TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts

本文提出 TT-LoRA MoE 框架，通过两阶段解耦的专家训练和路由机制，实现了参数高效的多任务学习，显著减少计算开销并保持性能。

Parameter-Efficient Fine-Tuning, Sparse Mixture of Experts, Multi-Task Learning, Dynamic Routing, Tensor Decomposition, Computational Efficiency

Pradip Kunwar, Minh N. Vu, Maanak Gupta, Mahmoud Abdelsalam, Manish Bhattarai

Tennessee Tech University, Los Alamos National Laboratory, North Carolina A&T State University

Generated by grok-3-mini-latest

Background Problem

大型语言模型（LLMs）在自然语言处理（NLP）中取得了显著进展，但全量微调的计算成本和内存需求很高，导致部署和适应特定任务的挑战。参数高效微调（PEFT）方法如 LoRA 和 TT-LoRA 通过更新少量参数来缓解这些问题，但需要在推理时手动选择适配器，限制了其在多任务和动态环境中的可扩展性。同时，混合专家（MoE）架构通过动态路由提高了模型容量，但面临专家训练开销大、容量稀释、训练不稳定等问题，以及可能导致灾难性遗忘和任务间干扰。本工作的出发点是整合 PEFT 和稀疏 MoE，解决这些挑战，实现高效、可扩展的多任务学习，减少手动干预并保持基模型知识。

Method

核心思想是通过两阶段方法统一参数高效微调和稀疏混合专家：第一阶段，独立训练每个任务的 TT-LoRA 适配器，每个适配器使用张量训练分解压缩参数；第二阶段，训练一个轻量级的稀疏 MoE 路由器，使用基模型的隐藏表示动态选择专家。主步骤包括：(1) 对于每个任务，冻结基模型参数，训练 TT-LoRA 适配器，其中权重矩阵通过张量训练分解表示，例如对于权重矩阵 $W \in \mathbb{R}^{m \times n}$ ，分解为 TT-核 $\{ \mathbf{G}_k \}_{k=1}^{p+q}$ ，输入通过张量收缩操作计算输出，避免重建完整矩阵；(2) 训练路由器，使用带噪声的 top-1 门控机制，计算路由分数 $g_{\bar{i}} = (h_x W_{\text{gate}})_{\bar{i}} + \mathcal{N}(0, 1) \cdot \text{Softplus}((h_x W_{\text{noise}})_{\bar{i}})$ ，然后应用 Softmax 选择专家，实现任务无关的动态路由。这种方法不修改基模型，仅在推理时调整采样，减少了参数和计算开销。

Experiment

实验分为两部分，使用 LlaMA-3.2-1B 作为基模型，数据集包括 17 个 NLP 分类任务，如 IMDB、SST2、Hellaswag 等，涵盖情感分析、常识推理、自然语言推理等领域。实验设置全面合理：第一部分，比较 TT-LoRA 与 LoRA 和 Adapter 的性能，通过超参数搜索（表 2）和推理时间测试（表 3），结果显示 TT-LoRA 使用约 2% 的 LoRA 参数和 0.3% 的 Adapter 参数，性能竞争性，平均准确率相近；第二部分，评估 MoE 路由和多任务性能，与 AdapterFusion 比较（表 6 和表 7），TT-LoRA MoE 在单任务和多任务设置中保留了专家性能，平均准确率提高约 4%，参数效率高（使用 AdapterFusion 参数的 0.03%）。路由准确率测试（表 5）显示路由器高效，处理多达 17 个任务。结果符合预期，验证了方法的参数效率、推理速度和多任务适应能力。

Further Thoughts

本文的 TT-LoRA MoE 框架通过张量训练分解和稀疏路由，高效解决了多任务学习中的参数效率和可扩展性问题，值得注意的是，这种解耦设计可能扩展到其他领域，如视觉模型或强化学习中，以减少训练开销；此外，与 AdapterFusion 比较显示其优势，未来可探索结合其他 PEFT 方法或在联邦学习中应用张量分解来降低通信成本；同时，路由机制的鲁棒性在动态任务环境中可能进一步优化，结合最近的工作如 MoLE 或 AdaMoLE，能够提升专家间协作，增强泛化能力。