The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs

本文通过模块化方法，利用大型语言模型参数在数学推理和多语言能力上的分离性，提出Layer-Swapping等策略，在低资源语言跨语言迁移中显著优于非模块化基线，尤其在数据受限场景下表现最佳。

Large Language Model, Cross-Lingual Transfer, Fine-tuning, Modularity, Mathematical Reasoning, Multilingual Capabilities

Lucas Bandarkar, Nanyun Peng

University of California, Los Angeles

Generated by grok-3

Background Problem

大型语言模型（LLMs）在高资源语言之外的任务上表现不佳，尤其是在低资源语言中缺乏任务特定的后训练数据的情况下。本文研究了如何通过跨语言迁移提升低资源语言的表现，解决预训练模型在多语言能力上的不足以及高质量多语言微调数据的稀缺问题。作者关注的一个关键问题是，如何在数据受限的情况下，将任务能力（如数学推理）和目标语言能力有效组合，以提升模型在低资源语言上的表现。

Method

本文提出了多种模块化方法，利用数学推理和多语言能力在模型参数中的分离性（数学推理主要在中间层，多语言能力在顶层和底层）来提升跨语言迁移效果。具体方法包括：

Layer-Swapping（层交换）：分别在英语数学数据和目标语言指令数据集上训练两个专家模型，然后通过交换各自最重要的变换器层（数学专家保留中间层，语言专家提供顶层和底层）来合并模型。
同时分区微调（Simultaneous Partition SFT）：在同一训练过程中，通过频繁冻结和解冻参数分区，交替在两个数据集上更新对应参数，模拟多任务优化。
部分参数微调：根据预先分配的参数分区，仅训练与目标任务相关的参数，其余参数保持冻结。核心思想是利用参数的分离性，通过冻结、单独训练或后合并等方式，将任务和语言能力分别优化并组合。然而，参数分配策略依赖于有限的经验测试和之前的可解释性研究，可能存在一定的主观性和局限性，尤其是在不同模型架构上的适用性未被充分验证。

Experiment

实验在三种低资源语言（孟加拉语、斯瓦希里语、泰卢固语）和四种指令微调模型（FALCON 3 7B、QWEN2.5 7B Instruct、LLAMA 3.1 8B Instruct、AYA Expanse 8B）上进行，采用全参数微调和LoRA两种范式。数据集包括英语数学数据集（Orca-Math）和目标语言的多任务指令数据集，评估指标为MGSM数学推理基准的2-shot精确匹配准确率，同时辅以英语MGSM和多语言MCQA基准（如GLOBAL MMLU、BELEBELE）评估数学和语言能力。

结果：所有模块化方法均优于非模块化基线（如单独数学或语言训练、数据混合），其中Layer-Swapping在全参数微调下表现最佳（平均准确率21.5% vs 基线19.0%），尤其在泰卢固语和斯瓦希里语上提升明显。
分析：Layer-Swapping优于同时微调的意外结果可能与任务向量的线性性质有关；此外，训练后重置参数优于训练前冻结参数，表明全参数训练有助于优化。实验设置合理，覆盖多种模型和语言，但提升幅度较小（仅2-3个百分点），且部分结果在特定语言（如孟加拉语）上与基线差异不显著，可能受限于数据规模和模型初始能力。此外，参数分配策略未充分探索，可能未达到最优配置。

Further Thoughts

本文提出的模块化方法，尤其是Layer-Swapping的成功，启发了对大型语言模型中能力参数化分离的进一步思考。未来的研究可以探索更系统化的参数分配策略，而不仅仅依赖于有限的经验测试或之前的可解释性研究。例如，是否可以通过自动化方法（如梯度分析或神经网络剪枝技术）来动态识别任务相关参数？此外，Layer-Swapping的效果可能与任务向量的线性性质有关，这与近期关于模型权重插值和模式连接性（mode connectivity）的研究相呼应，提示我们可以在模型合并时引入更复杂的线性组合或插值方法，而不仅仅是简单的层交换。另一个值得关注的点是，这种方法是否适用于其他任务（如自然语言推理或情感分析），因为不同任务可能有不同的参数分布特性。最后，本文的实验结果提升幅度较小，可能反映了指令微调模型的初始能力已接近饱和，未来可以尝试在预训练阶段引入模块化设计，以获得更大的性能提升。