Skip to content
Go back 2505.13090 arXiv logo

The Effect of Language Diversity When Fine-Tuning Large Language Models for Translation

Published:  at  11:23 AM
88.75 🤔

本文通过系统性实验证明,在大型语言模型微调中增加语言多样性可显著提升所有类别翻译对的性能,并通过中层表征分析揭示跨语言迁移机制,但多样性收益存在阈值。

Large Language Model, Fine-tuning, Translation, Cross-lingual Transfer, Multimodal Data

David Stap, Christof Monz

University of Amsterdam

Generated by grok-3

Background Problem

大型语言模型(LLMs)在机器翻译任务中表现出潜力,但其性能需要通过针对性微调来与专用翻译系统媲美。现有研究在多语言微调策略上存在矛盾:一些研究表明增加语言多样性或任务数量能提升跨语言泛化能力,而另一些研究发现仅用1-3种语言微调即可触发跨语言迁移。针对这一矛盾,本文通过系统性实验探讨了微调过程中语言多样性对翻译质量的影响,尤其是在不同类型语言对(完全监督、部分监督和零样本)上的表现。

Method

本文提出了一种系统性控制实验方法,通过在不同语言多样性条件下对基于LLAMA 2的TOWER模型进行微调,研究其对翻译性能的影响。具体步骤如下:

Experiment

实验在132个翻译方向上进行,涵盖12种类型学上多样的语言,分为完全监督、部分监督和零样本三类语言对。结果显示:

Further Thoughts

本文的研究为多语言微调策略提供了重要见解,但仍有值得深入探讨的空间。例如,是否可以通过基于语言类型学距离的语言选择策略来优化多样性阈值,而不是简单增加语言数量?此外,多语言微调对计算资源和训练时间的需求未被充分讨论,这在实际应用中可能成为瓶颈。结合其他领域的研究,如跨语言知识迁移在自然语言推理任务中的应用,或许可以进一步探索语言多样性对模型推理能力的潜在影响。另一个有趣的方向是,是否可以通过动态调整微调过程中的语言分布(例如,初期注重高资源语言,后期引入低资源语言)来平衡性能与效率?这些问题值得后续研究关注。



Previous Post
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
Next Post
Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately