Skip to content
Go back 2505.18356 arXiv logo

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs

Published:  at  11:24 AM
92.28 🤔

本文通过模块化方法,利用大型语言模型参数在数学推理和多语言能力上的分离性,提出Layer-Swapping等策略,在低资源语言跨语言迁移中显著优于非模块化基线,尤其在数据受限场景下表现最佳。

Large Language Model, Cross-Lingual Transfer, Fine-tuning, Modularity, Mathematical Reasoning, Multilingual Capabilities

Lucas Bandarkar, Nanyun Peng

University of California, Los Angeles

Generated by grok-3

Background Problem

大型语言模型(LLMs)在高资源语言之外的任务上表现不佳,尤其是在低资源语言中缺乏任务特定的后训练数据的情况下。本文研究了如何通过跨语言迁移提升低资源语言的表现,解决预训练模型在多语言能力上的不足以及高质量多语言微调数据的稀缺问题。作者关注的一个关键问题是,如何在数据受限的情况下,将任务能力(如数学推理)和目标语言能力有效组合,以提升模型在低资源语言上的表现。

Method

本文提出了多种模块化方法,利用数学推理和多语言能力在模型参数中的分离性(数学推理主要在中间层,多语言能力在顶层和底层)来提升跨语言迁移效果。具体方法包括:

Experiment

实验在三种低资源语言(孟加拉语、斯瓦希里语、泰卢固语)和四种指令微调模型(FALCON 3 7B、QWEN2.5 7B Instruct、LLAMA 3.1 8B Instruct、AYA Expanse 8B)上进行,采用全参数微调和LoRA两种范式。数据集包括英语数学数据集(Orca-Math)和目标语言的多任务指令数据集,评估指标为MGSM数学推理基准的2-shot精确匹配准确率,同时辅以英语MGSM和多语言MCQA基准(如GLOBAL MMLU、BELEBELE)评估数学和语言能力。

Further Thoughts

本文提出的模块化方法,尤其是Layer-Swapping的成功,启发了对大型语言模型中能力参数化分离的进一步思考。未来的研究可以探索更系统化的参数分配策略,而不仅仅依赖于有限的经验测试或之前的可解释性研究。例如,是否可以通过自动化方法(如梯度分析或神经网络剪枝技术)来动态识别任务相关参数?此外,Layer-Swapping的效果可能与任务向量的线性性质有关,这与近期关于模型权重插值和模式连接性(mode connectivity)的研究相呼应,提示我们可以在模型合并时引入更复杂的线性组合或插值方法,而不仅仅是简单的层交换。另一个值得关注的点是,这种方法是否适用于其他任务(如自然语言推理或情感分析),因为不同任务可能有不同的参数分布特性。最后,本文的实验结果提升幅度较小,可能反映了指令微调模型的初始能力已接近饱和,未来可以尝试在预训练阶段引入模块化设计,以获得更大的性能提升。



Previous Post
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models
Next Post
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning