Skip to content
Go back 2410.09982 arXiv logo

Self-Data Distillation for Recovering Quality in Pruned Large Language Models

Published:  at  11:19 PM
89.06 🤔

本文提出自数据蒸馏微调方法,通过利用未剪枝模型生成蒸馏数据集恢复剪枝后大型语言模型的质量,在HuggingFace OpenLLM Leaderboard v1上显著优于标准监督微调,并通过模型合并和推测解码进一步提升性能和效率。

Large Language Model, Fine-tuning, Efficiency, Reasoning, Pre-training

Vithursan Thangarasa, Ganesh Venkatesh, Mike Lasby, Nish Sinnadurai, Sean Lie

Cerebras Systems, University of Calgary

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理中取得了显著进展,但其高计算和内存需求使得部署成本高昂。随着模型规模的增加,压缩技术(如剪枝)成为平衡模型质量和计算效率的关键。然而,结构化剪枝(Structured Pruning)常导致质量下降,尤其是在需要多步推理的任务上。监督微调(SFT)虽能部分恢复质量,但可能引发灾难性遗忘(Catastrophic Forgetting),即模型丢失先前学习到的知识,主要是由于微调数据分布与原始分布的偏移。本文旨在解决剪枝和微调带来的质量下降问题,提出了一种自数据蒸馏方法以保持模型性能。

Method

本文提出了一种结合结构化层剪枝和自数据蒸馏微调的方法,旨在提高大型语言模型的效率并恢复剪枝后的质量。

Experiment

实验主要基于Llama3.1-8B Instruct和Mistral-7B-v0.3 Instruct模型,剪枝块大小从2到10层不等,评估了自数据蒸馏与标准监督微调(SFT)及无微调(No FT)在HuggingFace OpenLLM Leaderboard v1上的表现。

Further Thoughts

尽管本文提出的自数据蒸馏方法在恢复剪枝模型质量方面表现出色,但其对大规模蒸馏数据集的依赖可能限制了其在资源受限环境下的应用。未来研究可以探索如何在小规模数据集上实现类似效果,例如通过结合知识蒸馏(Knowledge Distillation)或其他参数高效微调方法(如LoRA的改进版本)来降低计算成本。此外,论文中推测解码的应用让我联想到近期关于模型推理加速的研究,如Eagle(Li et al., 2024),其强调特征不确定性在推测采样中的作用。或许可以将自数据蒸馏与此类方法结合,进一步优化草稿模型与目标模型的对齐,从而在更大规模模型(如Llama3.1-70B)上实现更高效的推理。最后,剪枝指标的选择仍是一个开放问题,是否可以引入多指标融合策略(如结合角余弦距离和Block Influence Score),以提高剪枝决策的鲁棒性,值得进一步探索。



Previous Post
RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs
Next Post
Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation