Skip to content
Go back 2505.22582 arXiv logo

Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts

Published:  at  11:24 AM
88.22 🤔

本文提出LayerMoE算法,通过基于层间语言相似性的专家分配和路由分类器,实现了多语言LLM的高效扩展,以更少的参数显著提升新语言性能并减少旧语言遗忘。

Large Language Model, Multimodal Systems, Efficiency, Continual Learning, Pre-training

Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou

北京交通大学, 腾讯公司微信AI模式识别中心

Generated by grok-3

Background Problem

现有的多语言大语言模型(LLM)在高资源语言上表现出色,但在多语言场景中的能力仍有限,尤其是在低资源语言上。为了提升多语言能力,持续为现有LLM扩展新语言是一种可持续的方法,避免了从头开始训练所需的巨大计算资源。然而,关键挑战在于如何在学习新语言的同时避免对原有熟练语言能力的灾难性遗忘。现有的MoE-LPR方法通过混合专家(MoE)架构扩展新语言并尝试通过路由策略保护旧语言能力,但存在参数效率低(扩展后模型体积显著增加)和旧语言性能下降的问题。本文旨在解决这些问题,提出更高效的专家分配策略以实现新语言扩展,同时减少对旧语言的遗忘。

Method

本文提出了层级化专家分配算法(LayerMoE),其核心思想是基于不同层中语言表示的相似性来动态分配新专家数量,以提高参数效率并减少旧语言遗忘。具体方法如下:

批判性思考:虽然基于相似性分配专家的思路直观,但相似性计算依赖随机采样的HSAs,可能无法全面反映语言特性,存在采样偏差风险。此外,分类器的添加虽然减少了遗忘,但增加了计算复杂性,论文未充分讨论其对推理效率的影响,可能在实际部署中成为瓶颈。

Experiment

实验在两种设置下进行:单次扩展(一次性扩展一组新语言)和终身扩展(顺序适应多组新语言)。

Further Thoughts

LayerMoE的层级化专家分配策略为多语言模型扩展提供了一个新颖视角,尤其是在参数效率方面的改进值得关注。然而,其基于相似性分配专家的假设可能过于简化,不同语言间的结构差异(如语法、语义)可能对模型层级表示的影响远超简单的余弦相似性度量。未来研究可以结合语言学特征(如形态学复杂度)进一步优化分配策略。此外,分类器的引入虽然有效,但其计算成本和对推理延迟的影响需要更详细评估,尤其是在资源受限的边缘设备上部署时。另一个有趣的方向是探索LayerMoE与其他参数高效微调方法(如LoRA)的结合潜力,以进一步减少扩展成本,同时保持多语言能力。跨领域应用方面,这一方法或许可以启发其他领域(如多模态模型)的增量学习策略,例如在视觉-语言模型中根据模态相似性分配专家,值得进一步探索。



Previous Post
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
Next Post
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)