Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models

本文提出MAET方法，通过提取语言无关的能力相关权重并跨语言转移，构建多语言能力增强的大型语言模型，在数学和科学任务上以60%的计算资源实现约10%的性能提升，优于多种基线方法。

Large Language Model, Transfer Learning, Multimodal Systems, Reasoning, Efficiency, Pre-training

Zhipeng Chen, Kun Zhou, Liang Song, Wayne Xin Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen

Gaoling School of Artificial Intelligence, Renmin University of China, School of Information, Renmin University of China, Baichuan Inc.

Generated by grok-3

Background Problem

大型语言模型（LLMs）在通用任务上表现出色，但在复杂任务（如数学推理和科学推理）上仍面临挑战，尤其是在多语言场景中，特别是低资源语言（如孟加拉语和泰卢固语）中，相关训练数据严重不足。现有方法通常依赖于多语言能力相关语料的训练或模型参数合并来提升能力，但这些方法在数据稀缺的场景下效果有限，且计算成本高昂。论文提出了一种新的解决方案，旨在通过提取语言无关的能力相关权重，并将其跨语言转移到目标模型中，从而在不依赖多语言能力语料的情况下构建多语言能力增强的LLM，解决数据稀缺和计算资源限制的问题。

Method

论文提出了一种多语言能力提取与转移方法（MAET），核心思想是通过分解和提取语言无关的能力相关权重，并通过简单的加减操作将其转移到目标语言模型中。方法分为两个主要阶段：

能力提取阶段：
1. 关键神经元定位：利用能力相关语料（以英语为例）对LLM进行持续预训练，通过计算训练前后神经元参数的变化（公式1）近似估计神经元与特定能力的相关性，并选择前1%的神经元作为关键神经元。
2. 能力相关权重学习：基于关键神经元，分别在能力相关语料和通用语料上训练模型，得到能力特异性模型和语言特异性模型，通过参数分解（公式2）提取能力相关权重，试图去除语言相关的影响。
能力转移阶段：
1. 能力相关参数张量选择：通过计算多语言权重（公式3）和能力相关权重的相似性（公式4），选择与语言影响最低的后2%参数张量作为能力相关张量。
2. 构建多语言能力增强LLM：通过插值策略（公式5）将能力相关权重和多语言权重合并到目标模型中，对于能力相关张量，同时加入能力和语言权重；对于非能力相关张量，仅加入语言权重。

该方法的关键创新在于不依赖多语言能力语料，仅需单语言能力语料和通用多语言语料，通过稀疏更新和参数分解实现能力的提取与转移，旨在提高效率并缓解数据稀缺问题。

Experiment

实验围绕多语言数学和科学推理任务展开，数据集包括多语言小学数学（MGSM）和多语言MMLU科学任务，覆盖高资源语言（如西班牙语）和低资源语言（如孟加拉语和泰卢固语）。训练语料包括通用多语言语料和英语能力相关语料（OpenWebMath和arXiv论文），基线模型包括持续预训练（CPT）、迁移学习、数据增强和模型合并方法（如任务向量TV），以LLaMA-3 8B为骨干模型。

实验设置合理性：实验选择了具有代表性的多语言基准数据集，覆盖高低资源语言，具有一定的全面性。基线方法涵盖了多种主流技术，比较维度包括训练参数量、训练方式和数据类型，设计较为系统。
结果分析：MAET在所有下游任务的平均性能上优于基线方法，数学任务平均得分35.7（对比基线最高34.5），科学任务平均得分41.4（对比基线最高40.9），相对基线模型（LLaMA-3 8B）提升约10%。此外，MAET仅使用60%的计算资源（12B tokens对比基线最高20B tokens），显示出较高的成本效益比（RICER值最高）。
不足与质疑：尽管结果显示改进，但提升幅度在低资源语言上较为有限（如孟加拉语数学任务仅从28.8提升到32.4），且未提供统计显著性检验来验证改进的可靠性。能力相关参数张量比例（2%）的选择缺乏理论支持，仅通过经验性分析（图3）确定，可能影响方法的泛化性。消融研究（图2）验证了各模块的有效性，但未深入探讨超参数（如α、β）的调节对结果的影响。此外，实验仅在8B模型上进行，未验证更大规模模型上的效果，限制了结论的普适性。
与预期匹配度：结果基本符合论文提出的高效能力和转移的预期，但改进幅度和低资源语言上的表现未完全达到解决数据稀缺问题的理想效果，显示方法仍有优化空间。

Further Thoughts

MAET提供了一个有趣的视角，通过参数分解和稀疏更新实现能力的跨语言转移，这与近年来关于模型参数模块化和知识分解的研究趋势相呼应。然而，我认为其方法在理论依据和实践应用上仍有值得深入探讨的空间。例如，关键神经元定位和能力权重提取的准确性可能受到训练数据质量和模型规模的影响，是否可以通过结合神经科学中的神经元功能分析或更先进的梯度分析技术来提升定位精度？此外，论文未探讨能力转移过程中可能存在的冲突问题，例如当目标语言模型的内部知识与转移能力不一致时，如何缓解干扰？这可能与模型合并领域中的权重冲突研究（如任务向量干扰）相关，值得进一步结合。

另一个思考方向是MAET在更大规模模型和更多任务上的适用性。论文受限于计算资源，仅在8B模型上测试，而更大模型（如70B）可能具有更复杂的参数分布和能力表示，MAET的稀疏更新策略是否仍有效？同时，数学和科学推理之外的任务（如情感分析或文化相关任务）可能涉及更复杂的语言依赖性，MAET的语言无关假设是否成立？此外，论文提到未来将研究对齐能力的转移，这是一个重要方向，因为能力转移可能引入伦理或安全风险，如何确保转移过程不破坏模型的对齐性（如RLHF效果）是一个亟待解决的问题。

最后，MAET的计算效率优势（60%资源）是一个亮点，但缺乏与其他高效方法（如LoRA或量化技术）的详细对比。是否可以将MAET与这些方法结合，进一步降低计算成本？或者，是否可以通过自动化超参数搜索（如贝叶斯优化）来优化能力张量比例和权重插值参数，提升方法的实用性和鲁棒性？这些问题值得后续研究深入探索。