Skip to content
Go back 2503.20083 arXiv logo

Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching

Published:  at  11:15 AM
85.32 🤔

本文提出了一种跨分词器蒸馏方法ALM,通过近似似然匹配实现不同分词器间的知识转移,首次在子词到字节级迁移等场景中取得显著效果,并在多个应用案例中优于现有方法。

Large Language Model, Pre-training, Fine-tuning, Efficiency, Representation Learning

Benjamin Minixhofer, Ivan Vulić, Edoardo Maria Ponti

University of Cambridge, University of Edinburgh

Generated by grok-3

Background Problem

大型语言模型(LLMs)的知识蒸馏(Distillation)是一种有效的知识转移方法,但传统方法要求教师模型和学生模型使用相同的分词器(Tokenizer),这限制了可适用的教师-学生模型对,尤其是在分词器类型根本不同(如子词到字节级)的情况下。本文旨在解决这一关键问题,提出了一种跨分词器蒸馏方法,首次实现了在高度异构分词器之间的有效知识转移,同时在同类分词器蒸馏中也显著优于现有方法。

Method

本文提出了**Approximate Likelihood Matching (ALM)**方法,用于跨分词器知识蒸馏,其核心思想和步骤如下:

Experiment

本文通过三个应用场景(Use Cases)验证了ALM方法的有效性,实验设置和结果如下:

Further Thoughts

ALM方法为跨分词器蒸馏提供了一个全新的视角,尤其是在模型重用和组合性方面的潜力令人印象深刻。未来可以将ALM与其他高效蒸馏技术(如拒绝采样或在线策略蒸馏)结合,进一步提升其在大规模模型和长上下文场景下的适用性。此外,ALM的对齐策略和近似方法可能启发其他领域的知识转移研究,例如跨模态学习(Multimodal Learning),其中不同模态的数据表示也存在类似的分词器异构问题。另一个值得探索的方向是,是否可以通过更复杂的对齐算法(如动态规划而非贪婪对齐)来减少近似误差,从而进一步提升蒸馏效果。总之,ALM虽然在当前实验中表现出色,但其理论边界和实际应用中的可扩展性仍需更多研究和验证,尤其是在面对更复杂的模型架构和数据分布时。



Previous Post
HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
Next Post
Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant