Skip to content
Go back 2410.01335 arXiv logo

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Published:  at  11:35 AM
88.25 🤔

本文提出了一种层交换方法,通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组,实现零样本跨语言迁移,在低资源语言的数学推理任务上显著提升性能达10%。

Large Language Model, Fine-tuning, Transfer Learning, Reasoning, Multimodality

Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu

University of California, Los Angeles, Meta GenAI

Generated by grok-3

Background Problem

大型语言模型(LLMs)在非英语语言中的任务性能受限于预训练数据的英语中心性以及目标语言中高质量标注数据的稀缺,尤其是在数学推理等特定任务领域。传统的跨语言迁移方法效果有限,且机器翻译数据质量不可靠,计算成本高昂。本文旨在解决这一问题,通过提出一种无需目标语言任务数据的零样本跨语言迁移方法,将英语数学推理能力迁移到低资源语言(如斯瓦希里语、泰卢固语、孟加拉语、日语),从而提升模型在这些语言中的数学性能。

Method

Experiment

Further Thoughts

层交换方法揭示了大型语言模型中语言特定参数和任务特定参数的潜在分离性,这一见解可能为未来的模型设计带来启发。例如,是否可以通过模块化架构(如Mixture of Experts或Adapters)在预训练阶段就分离语言和任务能力,从而更高效地实现跨语言迁移?此外,论文中提到的英语中心性LLMs通过顶部和底部层将多语言输入映射到英语表示的观点,与近期关于多语言模型内部表示的研究相呼应(如Wendler et al., 2024),这提示我们或许可以通过操控这些映射层来增强模型的多语言能力,而不仅仅是参数替换。另一方面,方法对低资源语言的适用性仍需进一步验证,尤其是在预训练数据极度匮乏的语言上,可能需要结合数据增强或合成数据生成技术来弥补基础能力的不足。总之,层交换作为一个简单而有效的后处理方法,为模型合并和跨语言迁移提供了新思路,但其理论基础和适用范围仍需更深入的研究和实验支持。



Previous Post
SELF: Self-Extend the Context Length With Logistic Growth Function
Next Post
You Do Not Fully Utilize Transformer's Representation Capacity