Skip to content
Go back 2505.14297 arXiv logo

Cross-Lingual Optimization for Language Transfer in Large Language Models

Published:  at  11:23 AM
85.77 🤔

本文提出跨语言优化(CLO)方法,通过翻译数据和改进的DPO策略,将英语中心的大型语言模型有效转移到目标语言,在保持英语能力的同时显著提升目标语言性能,尤其在低资源语言中以更少数据取得优于传统SFT的结果。

Large Language Model, Transfer Learning, Multimodal Data, Instruction Tuning, Alignment

Jungseob Lee, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim

Korea University

Generated by grok-3

Background Problem

大型语言模型(LLMs)主要在英语数据上预训练,导致其在其他语言上的性能较差,尤其是在数据资源有限的低资源语言中表现不佳。传统监督微调(SFT)方法在数据稀缺场景下往往过于偏向英语性能,无法有效适应目标语言。本研究提出了一种跨语言优化(CLO)策略,旨在通过利用公开的英语SFT数据和翻译模型,将英语中心的LLM有效转移到目标语言,同时保持其英语能力,解决目标语言能力不足和英语能力退化的问题。

Method

跨语言优化(CLO)方法的核心是通过翻译数据和改进的直接偏好优化(DPO)策略,实现英语中心LLM到目标语言的知识转移,同时避免英语能力的损失。具体步骤如下:

Experiment

实验在五个LLM模型(Llama-2-7B/13B、Llama-3-8B、Mistral-7B、Qwen-2.5-3B)上进行,覆盖六种语言(高资源:中文、德语;中资源:韩语、印尼语;低资源:斯瓦希里语、约鲁巴语),使用6400个英语样本及其翻译数据(共12800个样本)。评估基准包括AlpacaEval(指令跟随能力)、BELEBELE(机器阅读理解)和MMMLU(推理能力)。

Further Thoughts

CLO方法在低资源语言中的数据效率优势令人印象深刻,但其对翻译数据的依赖可能是一个潜在的瓶颈。未来研究可以探索如何结合自监督学习或合成数据生成技术,减少对翻译模型的依赖,从而进一步提升跨语言转移的鲁棒性。此外,CLO目前仅针对单一目标语言的转移,是否能扩展到多语言同时优化是一个值得探索的方向,尤其是在多语言模型(如mBERT或XLM-R)的基础上,可能揭示更广泛的语言间知识共享机制。另一个思考点是CLO与RLHF(基于人类反馈的强化学习)等其他对齐方法的结合潜力,是否能通过引入人类偏好进一步优化跨语言一致性,尤其是在文化背景差异较大的语言对中,这可能为构建真正的多语言基础模型提供新思路。



Previous Post
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
Next Post
ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation