本文提出基于超网络的HYPEROFA方法,用于初始化新语言令牌嵌入,提高PLM对低资源语言的适应性,性能优于随机初始化并与OFA方法持平或更好。
Large Language Model, Pre-training, Embeddings, Multilingual Data, Transfer Learning
Enes Özeren, Yihong Liu, Hinrich Schütze
LMU Munich, Munich Center for Machine Learning
Generated by grok-3-mini-latest
Background Problem
多语言预训练语言模型(PLMs)在中等和低资源语言上的性能 suboptimal,主要由于预训练数据中这些语言的暴露有限。一种常见策略是引入针对目标语言的新令牌,初始化它们的嵌入,并使用目标语言数据进行持续预训练。然而,嵌入初始化的方法至关重要,随机初始化无法利用现有嵌入中的知识,而OFA等方法虽基于相似性但受限于线性表达。本文提出HYPEROFA来解决这一问题,提供更具表达力的初始化策略。
Method
核心思想: 使用超网络学习从外部多语言词向量空间到PLM嵌入空间的映射,以初始化新令牌嵌入。 如何实现: 包括三个步骤:
- 源嵌入因子分解,使用SVD分解嵌入矩阵。
- 匹配外部词向量,与令牌配对。
- 训练超网络(BiLSTM架构),使用损失函数:
- 对比损失:
- 标准化L1损失: 最终损失: 新令牌初始化:复制重叠、用超网络预测、随机初始化剩余。
Experiment
实验设置: 在RoBERTa和XLM-R上扩展词汇,比较HYPEROFA、OFA和随机初始化。数据集包括句子检索(SR-T、SR-B)和序列标注(NER、POS),在22种语言上评估零样本跨语言性能。实验设计合理,覆盖不同资源水平语言,并评估初始化嵌入的质量和持续预训练后的效果。 结果: 预持续预训练时,HYPEROFA优于随机初始化,与OFA相当;持续预训练后,表现良好,收敛更快,结果符合预期,表明方法改进明显,实验设置全面。
Further Thoughts
HYPEROFA的方法突显了超网络在嵌入初始化中的灵活性,可能适用于其他任务如领域适应或跨模态学习。未来可以与最新的大型语言模型结合,或探索不同超网络架构以提高效率和泛化能力,并与其他初始化技术比较,以进一步提升在低资源场景下的表现。