Skip to content
Go back 2505.20335 arXiv logo

Language Model Distillation: A Temporal Difference Imitation Learning Perspective

Published:  at  11:44 AM
85.81 🤔

本文提出了一种基于时间差分学习的模型蒸馏框架,利用大型语言模型输出分布的稀疏性,通过top-p候选集缩减动作空间,在指令跟随任务中实现了性能提升和计算效率的改进。

Large Language Model, Reinforcement Learning, Representation Learning, Efficiency

Zishun Yu, Shangzhe Li, Xinhua Zhang

The University of Illinois, Chicago, The University of North Carolina at Chapel Hill

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理任务中取得了显著进展,但其巨大的模型规模带来了高昂的计算成本。模型蒸馏作为一种压缩技术,旨在将大型教师模型的知识转移到小型学生模型中,以提高效率。然而,传统的蒸馏方法(如行为克隆)存在复合误差问题(即暴露偏差),特别是在自回归生成任务中。本文从模仿学习(Imitation Learning, IL)和逆强化学习(Inverse Reinforcement Learning, IRL)的视角出发,试图通过时间差分(TD)学习方法解决这一问题,同时利用LLM输出分布的稀疏性(即概率质量集中在少量token上)来减少计算复杂度,探索更高效的蒸馏框架。

Method

本文提出了一种基于时间差分学习的模型蒸馏框架,核心创新在于利用教师模型输出分布的稀疏性,通过top-p候选集缩减动作空间来提高效率。具体方法如下:

Experiment

实验围绕指令跟随任务(instruction-following)展开,使用了三个模型家族(GPT-2、OPT、Qwen-2.5)进行测试,教师模型分别为1.5B、6.7B和3B参数规模,学生模型覆盖多个参数规模(如120M至1.3B)。

Further Thoughts

本文提出的top-p TD学习框架为模型蒸馏提供了一个新颖视角,尤其是在计算效率上的改进值得关注。然而,其依赖教师模型分布稀疏性的假设可能在某些场景下不成立,例如在多模态任务或概率分布较为均匀的模型中,top-p方法可能导致关键信息的丢失。未来研究可以探索自适应调整p值的方法,或者结合在线训练以进一步提升性能。此外,是否可以将top-p思想扩展到其他领域,如多模态基础模型的蒸馏,或在强化学习中处理大规模离散动作空间的问题?例如,在机器人控制任务中,是否可以根据专家策略的概率分布缩减动作空间?这可能是一个有趣的跨领域应用方向。另一个值得思考的点是,top-p方法与最近的一些参数高效微调技术(如Low-Rank Adaptation)结合,是否能在资源受限的场景下进一步提升蒸馏效果?这些问题值得后续深入研究。



Previous Post
You Do Not Fully Utilize Transformer's Representation Capacity
Next Post
Tensor Product Attention Is All You Need