Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts

本文提出LayerMoE算法，通过基于层间语言相似性的专家分配和路由分类器，实现了多语言LLM的高效扩展，以更少的参数显著提升新语言性能并减少旧语言遗忘。

Large Language Model, Multimodal Systems, Efficiency, Continual Learning, Pre-training

Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou

北京交通大学, 腾讯公司微信AI模式识别中心

Generated by grok-3

Background Problem

现有的多语言大语言模型（LLM）在高资源语言上表现出色，但在多语言场景中的能力仍有限，尤其是在低资源语言上。为了提升多语言能力，持续为现有LLM扩展新语言是一种可持续的方法，避免了从头开始训练所需的巨大计算资源。然而，关键挑战在于如何在学习新语言的同时避免对原有熟练语言能力的灾难性遗忘。现有的MoE-LPR方法通过混合专家（MoE）架构扩展新语言并尝试通过路由策略保护旧语言能力，但存在参数效率低（扩展后模型体积显著增加）和旧语言性能下降的问题。本文旨在解决这些问题，提出更高效的专家分配策略以实现新语言扩展，同时减少对旧语言的遗忘。

Method

本文提出了层级化专家分配算法（LayerMoE），其核心思想是基于不同层中语言表示的相似性来动态分配新专家数量，以提高参数效率并减少旧语言遗忘。具体方法如下：

相似性分析：通过计算不同语言在各层隐藏状态（HSAs）的余弦相似性，发现不同层对语言的表示相似性差异显著，中间层相似性较高，浅层和深层较低。作者推测高相似性层更倾向于提取语言无关特征，低相似性层则更关注语言特异性特征。
层级化专家分配：基于相似性指标，为相似性较低的层分配更多新专家（以捕捉语言特异性特征），为相似性较高的层分配较少专家（复用语言无关特征）。分配数量通过公式 $N^{i} = \left\lceil \left( \frac{(S^{i})^{-1}}{\sum_{i=1}^{m} (S^{i})^{-1}} \right) \times \delta \right\rceil$ 计算，其中 $S^{i}$ 是第 $i$ 层的相似性， $\delta$ 是总专家数目标。
路由分类网络：在相似性较高的层前添加分类器，判断输入token是否属于旧语言，若是则直接路由至旧专家，以减少路由网络混淆导致的遗忘。分类器的训练目标为交叉熵损失，与原有路由损失结合优化。

批判性思考：虽然基于相似性分配专家的思路直观，但相似性计算依赖随机采样的HSAs，可能无法全面反映语言特性，存在采样偏差风险。此外，分类器的添加虽然减少了遗忘，但增加了计算复杂性，论文未充分讨论其对推理效率的影响，可能在实际部署中成为瓶颈。

Experiment

实验在两种设置下进行：单次扩展（一次性扩展一组新语言）和终身扩展（顺序适应多组新语言）。

数据集与模型：以Qwen1.5-1.8B为基准模型，旧语言组为英语、西班牙语和中文，新语言组分为G1（希腊语、匈牙利语、土耳其语）和G2（孟加拉语、印地语、尼泊尔语），数据来源于CulturalX等数据集，每种新语言采样20亿token进行训练。评估在ARC-Challenge、MMLU、HellaSwag和Belebele四个多语言基准上进行。
实验设置：单次扩展测试了G0→G1和G0→G2，终身扩展测试了G0→G1→G2和G0→G2→G1。基线包括MoE-LPR、MOLA等方法，作者还对Llama-3.2-3B进行了泛化性验证。
结果：在单次扩展中，LayerMoE以60%更少的专家（1.6B vs 4B）超越了MoE-LPR（6*24），新语言性能提升（G1从33.81到34.71，G2从29.53到29.86），旧语言遗忘减少（G1的Old-avg为45.80，G2为46.06）。在终身扩展中，以33.3%更少的专家优于基线，显示出参数效率优势。然而，G2语言组性能提升较小，作者归因于非拉丁语系编码效率低，但未提供进一步验证。消融实验证明了相似性分配和分类器的必要性，随机分配专家或移除分类器均导致性能下降。
批判性思考：实验设置较为全面，涵盖了多种语言和扩展场景，但对G2性能提升有限的原因分析不足，仅归因于编码效率，未考虑语言结构差异或数据质量问题。此外，分类器对计算开销的影响未被量化，可能低估了实际应用中的成本。结果虽显示改进，但不同基准和语言间的提升不一致，论文未深入探讨潜在原因，限制了结论的普适性。

Further Thoughts

LayerMoE的层级化专家分配策略为多语言模型扩展提供了一个新颖视角，尤其是在参数效率方面的改进值得关注。然而，其基于相似性分配专家的假设可能过于简化，不同语言间的结构差异（如语法、语义）可能对模型层级表示的影响远超简单的余弦相似性度量。未来研究可以结合语言学特征（如形态学复杂度）进一步优化分配策略。此外，分类器的引入虽然有效，但其计算成本和对推理延迟的影响需要更详细评估，尤其是在资源受限的边缘设备上部署时。另一个有趣的方向是探索LayerMoE与其他参数高效微调方法（如LoRA）的结合潜力，以进一步减少扩展成本，同时保持多语言能力。跨领域应用方面，这一方法或许可以启发其他领域（如多模态模型）的增量学习策略，例如在视觉-语言模型中根据模态相似性分配专家，值得进一步探索。