Skip to content
Go back 2406.16508 arXiv logo

Large Vocabulary Size Improves Large Language Models

Published:  at  11:24 AM
85.40 🤔

本文通过实验证明较大词汇量能显著提升单语大型语言模型在英语和日语任务中的性能,并提出了一种在持续训练中更换词汇表的简单方法以适配目标语言,进一步提升模型表现。

Large Language Model, Pre-training, Fine-tuning, Efficiency, Tokenization

Sho Takase, Ryokan Ri, Shun Kiyono, Takuya Kato

SB Intuitions

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理任务中表现出色,但关于词汇量大小(即子词词汇表大小)对模型性能的影响尚未有充分研究。传统上,单语LLM的词汇量通常在30k-60k之间,而多语模型则可能达到250k。尽管如此,词汇量大小的选择缺乏理论依据,且其对单语模型质量的影响尚不明确。本文旨在通过实验探究词汇量大小与LLM性能之间的关系,并解决在持续训练场景下如何适配目标语言的词汇表问题。

Method

本文提出了两种主要研究方法:

Experiment

实验分为两部分:

Further Thoughts

本文的研究为词汇量大小对LLM性能的影响提供了初步证据,但其结论可能过于依赖英语和日语的语言特性。未来研究可以扩展到更多语言,特别是低资源语言,以验证词汇量大小的普适性影响。此外,词汇量增加带来的计算成本(如softmax计算复杂度)在实际部署中可能是一个重要瓶颈,值得进一步探讨高效算法(如adaptive softmax)的结合效果。另一个有趣的方向是探索词汇量大小与模型参数规模的交互作用,例如在更大规模模型(如超过10B参数)上测试词汇量变化是否仍保持类似趋势。最后,持续训练中词汇表更换的方法虽然简单有效,但随机初始化新嵌入可能不是最优解,是否可以通过跨语言嵌入对齐或语义迁移等技术进一步提升性能,是一个值得深入研究的问题。



Previous Post
Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking
Next Post
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs