Skip to content
Go back 2502.14830 arXiv logo

Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

Published:  at  11:27 AM
89.76 🤔

本文提出了一种通过中间层表示对齐增强大型语言模型跨语言迁移能力的方法,在微调过程中交替优化任务和对齐目标,并在槽填充、机器翻译等任务中取得了改进,尤其对低资源语言有益。

Large Language Model, Cross-Lingual Transfer, Representation Learning, Fine-tuning, Contrastive Learning

Danni Liu, Jan Niehues

Karlsruhe Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)在任务特定微调后表现出色,但在跨语言迁移中面临挑战,尤其是在低资源语言上,由于性能差距和微调数据稀缺,跨语言迁移效果不佳。本文通过分析超过1000个语言对的LLM内部表示,发现中间层在跨语言语义对齐中具有最大潜力,旨在通过在微调过程中引入中间层对齐目标,解决跨语言迁移性能不足的问题。

Method

本文提出了一种在任务特定微调中集成中间层对齐目标的方法,具体如下:

Experiment

实验在槽填充(MASSIVE数据集)、机器翻译(ALMA和WMT23数据集)和结构化文本生成(UNER数据集)三个任务上进行,基于Llama 3和Qwen 2.5模型,使用LoRA适配器进行微调。

Further Thoughts

本文提出的中间层对齐方法为跨语言迁移提供了一个新颖视角,但其局限性也启发了一些进一步思考。首先,非拉丁文语言的性能改进有限可能不仅仅是分词问题,还可能与模型预训练数据的语言偏见有关,未来可以探索结合语言特定预训练或分词优化的方法。其次,方法在长序列任务中的表现不佳提示我们,句级对齐目标可能无法充分捕捉上下文依赖的语义,是否可以通过引入上下文感知的对齐机制(如基于注意力机制的池化)来改进?此外,Qwen 2.5模型上的不一致结果表明,方法对不同模型的适应性可能受预训练数据分布的影响,未来研究可以深入分析模型预训练阶段的语言表示特性与对齐效果的关系。最后,本文提到的模块化训练和合并策略与最近的一些模型融合研究(如Matena和Raffel, 2022)有潜在联系,或许可以通过更复杂的融合技术(如任务特定的权重调整)进一步提升跨语言迁移性能,同时降低计算成本。



Previous Post
Large Vocabulary Size Improves Large Language Models
Next Post
Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective