本文提出了一种层交换方法,通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组,实现零样本跨语言迁移,在低资源语言的数学推理任务上显著提升性能达10%。
Large Language Model, Fine-tuning, Transfer Learning, Reasoning, Multimodality
Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu
University of California, Los Angeles, Meta GenAI
Generated by grok-3
Background Problem
大型语言模型(LLMs)在非英语语言中的任务性能受限于预训练数据的英语中心性以及目标语言中高质量标注数据的稀缺,尤其是在数学推理等特定任务领域。传统的跨语言迁移方法效果有限,且机器翻译数据质量不可靠,计算成本高昂。本文旨在解决这一问题,通过提出一种无需目标语言任务数据的零样本跨语言迁移方法,将英语数学推理能力迁移到低资源语言(如斯瓦希里语、泰卢固语、孟加拉语、日语),从而提升模型在这些语言中的数学性能。
Method
- 核心思想:通过层交换(Layer Swapping)方法,将从同一预训练模型微调得到的两个专家模型(一个在英语数学数据上微调,另一个在目标语言通用指令数据上微调)的参数进行重组,以结合语言能力和数学推理能力。
- 具体实现:
- 基于对微调参数变化的分析,发现语言特定参数主要集中在模型的顶部和底部变换器层,而数学推理能力主要集中在中间层(尤其是后半部分)。
- 将数学专家模型的顶部和底部层替换为语言专家模型的对应层,中间层保留数学专家的参数,同时设置过渡区(Transition Zone)以平滑层间差异(过渡区为两专家对应层的加权平均)。
- 实现过程简单,仅需对模型参数进行直接替换或加权平均,无需额外训练。
- 关键点:方法完全后处理(Post Hoc),成本低廉,且基于对模型参数分布的可解释性分析。
- 批评与思考:虽然方法直观且简单,但层交换的具体配置(如交换层数、过渡区大小)依赖于经验调整,缺乏理论依据,可能在不同模型或任务上表现不一致。此外,过渡区的必要性在实验中未得到显著验证,论文中提到其效果不明显,这可能暗示专家模型微调程度不足以导致表示空间显著分化,未来需进一步探讨。
Experiment
- 数据集与设置:实验基于LLAMA 3.1 8B模型,数学专家在英语Orca-Math数据集上微调,语言专家在目标语言(斯瓦希里语、泰卢固语、孟加拉语、日语)的通用指令数据集上微调。评估使用MGSM基准数据集(数学推理任务),并对比了基线模型、单个专家模型、模型汤(Model Souping)等方法。
- 结果:层交换方法在所有四种语言的MGSM任务上平均提升了10%的性能,特别是在低资源语言(如斯瓦希里语、泰卢固语)上效果显著,优于单个专家模型和其他合并方法(如Model Souping和TIES-Merging)。对于斯瓦希里语,最佳层交换配置的最大性能甚至超过直接在混合数据集上微调的模型。
- 分析与合理性:实验设置较为全面,涵盖了多种语言和多种专家组合(每个语言和数学各3个专家,共9种组合),并通过平均和最大性能指标评估方法的稳定性和潜力。然而,语言覆盖范围有限,且未测试极低资源语言或不同预训练模型的影响,可能存在泛化性问题。此外,实验中过渡区的设置未显示显著效果,可能是由于微调数据量较小或学习率较低导致专家模型表示空间未充分分化。
- 批评与思考:虽然结果令人印象深刻,但实验未充分探讨方法对模型规模、预训练数据分布或微调程度的依赖性。此外,MGSM作为唯一主要评估基准可能导致过优化,论文虽在其他任务(如BELEBELE、FLORES)上验证了性能,但数据有限,需更多任务和语言验证方法的鲁棒性。
Further Thoughts
层交换方法揭示了大型语言模型中语言特定参数和任务特定参数的潜在分离性,这一见解可能为未来的模型设计带来启发。例如,是否可以通过模块化架构(如Mixture of Experts或Adapters)在预训练阶段就分离语言和任务能力,从而更高效地实现跨语言迁移?此外,论文中提到的英语中心性LLMs通过顶部和底部层将多语言输入映射到英语表示的观点,与近期关于多语言模型内部表示的研究相呼应(如Wendler et al., 2024),这提示我们或许可以通过操控这些映射层来增强模型的多语言能力,而不仅仅是参数替换。另一方面,方法对低资源语言的适用性仍需进一步验证,尤其是在预训练数据极度匮乏的语言上,可能需要结合数据增强或合成数据生成技术来弥补基础能力的不足。总之,层交换作为一个简单而有效的后处理方法,为模型合并和跨语言迁移提供了新思路,但其理论基础和适用范围仍需更深入的研究和实验支持。