Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

本文提出TokenAdapt框架，通过混合启发式初始化策略实现分词器移植，并在零样本困惑度测试中显著优于基线方法，同时初步探索Supertoken学习以提升压缩效率。

Large Language Model, Tokenization, Representation Learning, Efficiency, Multimodal Data

Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath

Tinycompany, Tensoic, Google TRC

Generated by grok-3

Background Problem

大型语言模型（LLMs）在预训练阶段与特定分词方案（Tokenizer）紧密耦合，导致在多语言或专业领域应用中面临性能和效率问题。分词器锁定（Tokenizer Lock-in）会导致语义失真、token碎片化等问题，尤其是在处理低资源语言或专业语料时，增加计算成本和推理延迟。现有的解决方案，如词汇扩展结合持续预训练（CPT）或语言自适应预训练（LAPT），需要大量计算资源和目标语料，而简单的分词器替换方法则可能因初始化不当而损失模型性能。本研究旨在通过分词器移植和高效初始化策略，解决分词器锁定问题，同时探索多词超token（Supertoken）学习以提升压缩效率。

Method

本文提出了TokenAdapt框架，用于模型无关的分词器移植，并结合Supertoken学习方法以提升效率。其核心方法包括：

TokenAdapt混合启发式初始化：针对新分词器中的独特token，采用局部和全局两种估计方法初始化嵌入。
- 局部启发式：利用原始分词器分解新token为子token，通过外部文本嵌入模型计算语义相似性，并结合长度归一化加权，合成局部嵌入估计。
- 全局启发式：在辅助嵌入空间中，通过k近邻搜索找到与新token语义最相似的原始词汇token，按相似性加权合成全局嵌入估计。
- 混合整合：通过超参数 $w_{glob}$ 加权组合局部和全局估计，形成最终嵌入，若某一估计无效则回退到另一估计或随机初始化。
Supertoken学习：提出学习多词超token以减少token碎片化，提升序列压缩效率，但具体实现细节较少。

批判性思考：混合初始化策略在理论上合理，但依赖超参数 $w_{glob}$ 和温度 $\tau$ 的手动调整可能限制其泛化能力。此外，全局启发式中尝试的相似性阈值过滤反而导致性能下降，表明嵌入空间的复杂性可能被低估，方法设计未充分考虑非线性语义关系。Supertoken部分缺乏详细方法描述，显得初步。

Experiment

实验基于两个基础模型（Llama-3.2-3B和Qwen2.5-3B），目标分词器包括QTK-81K和自定义Supertoken分词器Adi-Bun-128K，使用tinycompany/ppl数据集在英语、印地语、代码、数学和混合语言（Hinglish）上评估零样本困惑度（Perplexity）。

设置与对比：TokenAdapt与随机初始化、均值初始化、ReTok（子token平均）和TransTokenizer方法对比，测试了不同参数配置（如 $w_{glob}=0.3$ ， $\tau=0.6$ ）。
结果：TokenAdapt（混合策略）在所有实验场景中表现出最低的困惑度比率（PPL Ratio），如Llama-3.2-3B到QTK-81K的整体比率为48.2，显著优于ReTok（71.1）和TransTokenizer（145.9），表明其在分词器替换后更好地保留了模型性能。Supertoken分词器的初步结果显示压缩潜力，但数据有限。
分析与批判：实验结果表明TokenAdapt在零样本场景下有效，但数据集覆盖范围有限，未能充分验证在更广泛多语言或专业领域中的表现。相似性阈值过滤（Hybrid+Thr.）未带来预期改进，反而在某些场景下恶化性能，反映出方法设计的局限性。此外，Supertoken的实验未与其他压缩方法对比，实际效果难以评估。实验设置虽合理，但缺乏对计算成本的详细分析，未能全面展示方法的可行性。

Further Thoughts

TokenAdapt的混合初始化策略在分词器移植中展现了潜力，但其依赖手动调参的加权机制可能限制了方法的自适应性。未来可以探索基于上下文或数据特性的动态加权方法，以进一步提升泛化能力。此外，全局启发式中相似性阈值过滤的失败提示嵌入空间的复杂性，可能需要结合更高级的语义对齐技术（如基于图结构的嵌入映射）来改进初始化过程。Supertoken学习作为一个初步概念，值得与其他序列压缩方法（如SuperBPE）进行深入对比，以验证其在实际应用中的价值。另一方面，分词器灵活性的研究还可以与多模态模型的token化策略结合，探索跨模态语义表示的统一初始化方法，这可能为构建更通用的基础模型提供新思路。