本文提出TokenAdapt框架,通过混合启发式初始化策略实现分词器移植,并在零样本困惑度测试中显著优于基线方法,同时初步探索Supertoken学习以提升压缩效率。
Large Language Model, Tokenization, Representation Learning, Efficiency, Multimodal Data
Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath
Tinycompany, Tensoic, Google TRC
Generated by grok-3
Background Problem
大型语言模型(LLMs)在预训练阶段与特定分词方案(Tokenizer)紧密耦合,导致在多语言或专业领域应用中面临性能和效率问题。分词器锁定(Tokenizer Lock-in)会导致语义失真、token碎片化等问题,尤其是在处理低资源语言或专业语料时,增加计算成本和推理延迟。现有的解决方案,如词汇扩展结合持续预训练(CPT)或语言自适应预训练(LAPT),需要大量计算资源和目标语料,而简单的分词器替换方法则可能因初始化不当而损失模型性能。本研究旨在通过分词器移植和高效初始化策略,解决分词器锁定问题,同时探索多词超token(Supertoken)学习以提升压缩效率。
Method
本文提出了TokenAdapt框架,用于模型无关的分词器移植,并结合Supertoken学习方法以提升效率。其核心方法包括:
- TokenAdapt混合启发式初始化:针对新分词器中的独特token,采用局部和全局两种估计方法初始化嵌入。
- 局部启发式:利用原始分词器分解新token为子token,通过外部文本嵌入模型计算语义相似性,并结合长度归一化加权,合成局部嵌入估计。
- 全局启发式:在辅助嵌入空间中,通过k近邻搜索找到与新token语义最相似的原始词汇token,按相似性加权合成全局嵌入估计。
- 混合整合:通过超参数加权组合局部和全局估计,形成最终嵌入,若某一估计无效则回退到另一估计或随机初始化。
- Supertoken学习:提出学习多词超token以减少token碎片化,提升序列压缩效率,但具体实现细节较少。
批判性思考:混合初始化策略在理论上合理,但依赖超参数和温度的手动调整可能限制其泛化能力。此外,全局启发式中尝试的相似性阈值过滤反而导致性能下降,表明嵌入空间的复杂性可能被低估,方法设计未充分考虑非线性语义关系。Supertoken部分缺乏详细方法描述,显得初步。
Experiment
实验基于两个基础模型(Llama-3.2-3B和Qwen2.5-3B),目标分词器包括QTK-81K和自定义Supertoken分词器Adi-Bun-128K,使用tinycompany/ppl数据集在英语、印地语、代码、数学和混合语言(Hinglish)上评估零样本困惑度(Perplexity)。
- 设置与对比:TokenAdapt与随机初始化、均值初始化、ReTok(子token平均)和TransTokenizer方法对比,测试了不同参数配置(如,)。
- 结果:TokenAdapt(混合策略)在所有实验场景中表现出最低的困惑度比率(PPL Ratio),如Llama-3.2-3B到QTK-81K的整体比率为48.2,显著优于ReTok(71.1)和TransTokenizer(145.9),表明其在分词器替换后更好地保留了模型性能。Supertoken分词器的初步结果显示压缩潜力,但数据有限。
- 分析与批判:实验结果表明TokenAdapt在零样本场景下有效,但数据集覆盖范围有限,未能充分验证在更广泛多语言或专业领域中的表现。相似性阈值过滤(Hybrid+Thr.)未带来预期改进,反而在某些场景下恶化性能,反映出方法设计的局限性。此外,Supertoken的实验未与其他压缩方法对比,实际效果难以评估。实验设置虽合理,但缺乏对计算成本的详细分析,未能全面展示方法的可行性。
Further Thoughts
TokenAdapt的混合初始化策略在分词器移植中展现了潜力,但其依赖手动调参的加权机制可能限制了方法的自适应性。未来可以探索基于上下文或数据特性的动态加权方法,以进一步提升泛化能力。此外,全局启发式中相似性阈值过滤的失败提示嵌入空间的复杂性,可能需要结合更高级的语义对齐技术(如基于图结构的嵌入映射)来改进初始化过程。Supertoken学习作为一个初步概念,值得与其他序列压缩方法(如SuperBPE)进行深入对比,以验证其在实际应用中的价值。另一方面,分词器灵活性的研究还可以与多模态模型的token化策略结合,探索跨模态语义表示的统一初始化方法,这可能为构建更通用的基础模型提供新思路。