Skip to content
Go back 2505.09738 arXiv logo

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

Published:  at  11:14 AM
85.73 🤔

本文提出TokenAdapt框架,通过混合启发式初始化策略实现分词器移植,并在零样本困惑度测试中显著优于基线方法,同时初步探索Supertoken学习以提升压缩效率。

Large Language Model, Tokenization, Representation Learning, Efficiency, Multimodal Data

Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath

Tinycompany, Tensoic, Google TRC

Generated by grok-3

Background Problem

大型语言模型(LLMs)在预训练阶段与特定分词方案(Tokenizer)紧密耦合,导致在多语言或专业领域应用中面临性能和效率问题。分词器锁定(Tokenizer Lock-in)会导致语义失真、token碎片化等问题,尤其是在处理低资源语言或专业语料时,增加计算成本和推理延迟。现有的解决方案,如词汇扩展结合持续预训练(CPT)或语言自适应预训练(LAPT),需要大量计算资源和目标语料,而简单的分词器替换方法则可能因初始化不当而损失模型性能。本研究旨在通过分词器移植和高效初始化策略,解决分词器锁定问题,同时探索多词超token(Supertoken)学习以提升压缩效率。

Method

本文提出了TokenAdapt框架,用于模型无关的分词器移植,并结合Supertoken学习方法以提升效率。其核心方法包括:

批判性思考:混合初始化策略在理论上合理,但依赖超参数wglobw_{glob}和温度τ\tau的手动调整可能限制其泛化能力。此外,全局启发式中尝试的相似性阈值过滤反而导致性能下降,表明嵌入空间的复杂性可能被低估,方法设计未充分考虑非线性语义关系。Supertoken部分缺乏详细方法描述,显得初步。

Experiment

实验基于两个基础模型(Llama-3.2-3B和Qwen2.5-3B),目标分词器包括QTK-81K和自定义Supertoken分词器Adi-Bun-128K,使用tinycompany/ppl数据集在英语、印地语、代码、数学和混合语言(Hinglish)上评估零样本困惑度(Perplexity)。

Further Thoughts

TokenAdapt的混合初始化策略在分词器移植中展现了潜力,但其依赖手动调参的加权机制可能限制了方法的自适应性。未来可以探索基于上下文或数据特性的动态加权方法,以进一步提升泛化能力。此外,全局启发式中相似性阈值过滤的失败提示嵌入空间的复杂性,可能需要结合更高级的语义对齐技术(如基于图结构的嵌入映射)来改进初始化过程。Supertoken学习作为一个初步概念,值得与其他序列压缩方法(如SuperBPE)进行深入对比,以验证其在实际应用中的价值。另一方面,分词器灵活性的研究还可以与多模态模型的token化策略结合,探索跨模态语义表示的统一初始化方法,这可能为构建更通用的基础模型提供新思路。



Previous Post
Sparsity May Be All You Need: Sparse Random Parameter Adaptation
Next Post
SSR: Speculative Parallel Scaling Reasoning in Test-time