Language Model Distillation: A Temporal Difference Imitation Learning Perspective

本文提出了一种基于时间差分学习的模型蒸馏框架，利用大型语言模型输出分布的稀疏性，通过top-p候选集缩减动作空间，在指令跟随任务中实现了性能提升和计算效率的改进。

Large Language Model, Reinforcement Learning, Representation Learning, Efficiency

Zishun Yu, Shangzhe Li, Xinhua Zhang

The University of Illinois, Chicago, The University of North Carolina at Chapel Hill

Generated by grok-3

Background Problem

大型语言模型（LLMs）在自然语言处理任务中取得了显著进展，但其巨大的模型规模带来了高昂的计算成本。模型蒸馏作为一种压缩技术，旨在将大型教师模型的知识转移到小型学生模型中，以提高效率。然而，传统的蒸馏方法（如行为克隆）存在复合误差问题（即暴露偏差），特别是在自回归生成任务中。本文从模仿学习（Imitation Learning, IL）和逆强化学习（Inverse Reinforcement Learning, IRL）的视角出发，试图通过时间差分（TD）学习方法解决这一问题，同时利用LLM输出分布的稀疏性（即概率质量集中在少量token上）来减少计算复杂度，探索更高效的蒸馏框架。

Method

本文提出了一种基于时间差分学习的模型蒸馏框架，核心创新在于利用教师模型输出分布的稀疏性，通过top-p候选集缩减动作空间来提高效率。具体方法如下：

核心思想：观察到LLM在生成token时，概率质量主要集中在少量高概率token上，因此可以在TD学习中仅考虑这些top-p token（即累计概率达到p的token集合），从而将动作空间从整个词汇表V缩减到一个较小的子集A_p^*。
实现步骤：(1) 定义top-p候选集A_p^*，即根据教师模型π^*在每个状态s下的概率分布，选择累计概率达到p的token子集；(2) 构建top-p MDP（马尔可夫决策过程），将动作空间限制在A_p^*上；(3) 在此基础上，设计top-p软Bellman算子，通过投影操作将策略和Q函数限制在A_p^*上；(4) 选择逆软Q学习（IQL）作为基础IRL算法，通过Q函数掩码和策略投影实现top-p框架的具体应用。
理论支持：作者证明了在top-p MDP中学习的最优策略与原始MDP中的最优策略（即教师模型）在性能上的次优性是有界的，界限由κ(p) = -γ/(1-γ) * log(p)决定。
关键问题与批评：虽然top-p方法在理论上减少了计算复杂度，但其依赖于教师模型分布的稀疏性假设。如果教师模型的分布在某些任务或场景中不够稀疏，top-p方法可能导致信息丢失。此外，作者未充分讨论如何动态调整p值以适应不同任务或模型，这可能限制方法的灵活性。

Experiment

实验围绕指令跟随任务（instruction-following）展开，使用了三个模型家族（GPT-2、OPT、Qwen-2.5）进行测试，教师模型分别为1.5B、6.7B和3B参数规模，学生模型覆盖多个参数规模（如120M至1.3B）。

数据集与设置：训练数据基于databricks-dolly-15K数据集（约12,500个指令-响应对），验证和测试集分别为500和1,000个样本。评估数据集包括DollyEval、SelfInst和Vicuna，使用Rouge-L分数和GPT-4o-mini评判的胜率作为指标。实验采用离线训练模式，预先生成教师模型响应。
结果分析：在Rouge-L分数上，作者的方法（称为Bellman Distill, BD）在所有模型家族中均优于传统KD和SeqKD基线，在OPT和Qwen-2.5家族中通常优于MiniLLM，但在GPT-2家族中与MiniLLM相当。胜率结果（基于Qwen-2.5）也显示BD在生成质量上优于基线。top-p值的选择（p=0.5、0.8、1.0）对性能有影响，p=0.8通常表现最佳。训练时间上，离线训练显著优于在线方法（如MiniLLM），例如在Qwen-2.5上仅需0.8小时对MiniLLM的10.7小时。
评价与批评：实验设置较为全面，覆盖了多个模型规模和家族，指标选择（Rouge-L和胜率）也较为合理。然而，结果显示方法在不同模型家族中的性能提升不一致，可能暗示其对模型架构的敏感性。此外，实验未涉及更广泛的任务类型（如非指令跟随任务），限制了方法的通用性验证。top-p值的选择依赖经验调整，缺乏系统性分析其对性能的影响机制。最后，离线训练虽然高效，但可能牺牲了在线训练带来的潜在性能提升，作者未对此进行对比实验。

Further Thoughts

本文提出的top-p TD学习框架为模型蒸馏提供了一个新颖视角，尤其是在计算效率上的改进值得关注。然而，其依赖教师模型分布稀疏性的假设可能在某些场景下不成立，例如在多模态任务或概率分布较为均匀的模型中，top-p方法可能导致关键信息的丢失。未来研究可以探索自适应调整p值的方法，或者结合在线训练以进一步提升性能。此外，是否可以将top-p思想扩展到其他领域，如多模态基础模型的蒸馏，或在强化学习中处理大规模离散动作空间的问题？例如，在机器人控制任务中，是否可以根据专家策略的概率分布缩减动作空间？这可能是一个有趣的跨领域应用方向。另一个值得思考的点是，top-p方法与最近的一些参数高效微调技术（如Low-Rank Adaptation）结合，是否能在资源受限的场景下进一步提升蒸馏效果？这些问题值得后续深入研究。