Skip to content
Go back 2505.15442 arXiv logo

On the Generalization vs Fidelity Paradox in Knowledge Distillation

Published:  at  11:23 AM
86.63 🤔

本文通过大规模实证分析揭示知识蒸馏(KD)显著提升小型语言模型的零样本推理性能(高达10%),但对大型模型收益有限,且性能提升与推理保真度存在脱节,强调任务专长和适度参数调整的重要性。

Large Language Model, Pre-training, Fine-tuning, Reasoning, Efficiency

Suhas Kamasetty Ramesh, Ayan Sengupta, Tanmoy Chakraborty

Indian Institute of Technology Delhi

Generated by grok-3

Background Problem

随着预训练语言模型(LMs)的快速发展,大型语言模型(LLMs)在各种自然语言处理任务中取得了最先进的性能,但其高计算和内存需求限制了在资源受限环境中的部署。知识蒸馏(KD)作为一种模型压缩技术,通过让小型学生模型从大型教师模型中学习,旨在在降低资源需求的同时保持性能。然而,KD在小型语言模型中的有效性、知识转移的机制以及其对模型泛化能力和推理保真度的影响仍未被充分探索。本研究通过大规模实证和统计分析,试图解决这些问题,特别是在零样本设置下,评估KD在不同规模模型和复杂推理任务中的表现,揭示其益处与权衡。

Method

本文采用了三种先进的知识蒸馏(KD)方法来研究知识转移的效果,核心思想是通过不同的损失函数和训练策略,将大型教师模型的知识传递给小型学生模型。具体方法如下:

Experiment

实验在Qwen-2.5(0.5B至14B)和LLaMA-3(1B至8B)模型系列上进行,涵盖14个数学和常识推理任务,采用零样本设置。数据集包括数学推理的GSM8K、SVAMP等和常识推理的Hellaswag、Winogrande等,细化训练和评估流程见附录。实验设置使用LoRA适配器进行监督微调和KD微调,硬件为单张Nvidia-A100 GPU,批大小16,学习率3e-4,最大长度256。结果显示:

Further Thoughts

本文揭示的推理保真度与性能提升之间的矛盾是一个值得深入探讨的问题,尤其在关键应用领域(如医疗或法律推理)中,模型的决策过程透明性和可靠性至关重要。未来的研究可以探索结合可解释性技术(如注意力机制分析)与KD,设计新的损失函数以同时优化性能和推理一致性。此外,本文未涉及多教师KD或迭代KD策略,这可能是提升小型模型泛化能力和保真度的潜在方向。另一个有趣的视角是KD在多模态任务中的应用,例如结合视觉和语言模型的知识蒸馏,是否会面临类似的保真度挑战?与近期一些关于自蒸馏(self-distillation)的研究相比,本文的方法显得较为传统,未来可以尝试将自蒸馏与任务自适应策略结合,以减少对大型教师模型的依赖,同时提升小型模型的自主学习能力。最后,KD可能传递教师模型的偏见或脆弱性(如对抗攻击),这在本文的伦理考量中有所提及,但缺乏具体实验验证,值得后续研究进一步关注。



Previous Post
Memorization-Compression Cycles Improve Generalization
Next Post
Large Language Models are Miscalibrated In-Context Learners