Skip to content
Go back 2411.10272 arXiv logo

P$^2$ Law: Scaling Law for Post-Training After Model Pruning

Published:  at  01:15 PM
87.89 🤔

本文提出P² Law作为剪枝后大型语言模型后训练的首个缩放定律,通过结合模型规模、后训练数据量、剪枝率和初始损失预测后训练损失,并在多种剪枝方法和模型上验证其有效性和部分泛化能力。

Large Language Model, Pre-training, Fine-tuning, Efficiency, Scaling Laws

Xiaodong Chen, Yuxuan Hu, Xiaokang Zhang, Yanling Wang, Cuiping Li, Hong Chen, Jing Zhang

Renmin University of China, Zhipu AI, Engineering Research Center of Database and Business Intelligence, MOE, China, Key Laboratory of Data Engineering and Knowledge Engineering, MOE, China

Generated by grok-3

Background Problem

大型语言模型(LLM)基于Transformer架构,在多个领域和任务中表现出色,但其参数规模的快速增长导致硬件需求激增,限制了实际部署。为解决这一问题,模型剪枝技术被广泛用于压缩模型规模以降低硬件需求。然而,剪枝通常会导致性能下降,因此后训练(Post-Training)成为恢复性能的重要步骤。现有研究表明,使用大量数据进行后训练(如持续预训练)能有效恢复性能,但硬件成本高昂,而数据量达到一定规模后性能提升有限。因此,如何平衡后训练成本与模型性能,找到最优的后训练数据量,成为一个亟待解决的问题。本文通过研究剪枝后模型的后训练损失变化,提出了P² Law这一缩放定律,旨在预测后训练损失并指导资源分配。

Method

本文提出了一种新的缩放定律——P² Law,用于预测剪枝后大型语言模型的后训练损失。其核心思想和实现步骤如下:

Experiment

实验在Llama-3和Qwen-2.5系列模型上进行,涵盖多种模型规模(0.5B至8B参数),并采用三种剪枝方法:深度剪枝、宽度剪枝和2:4半结构化剪枝。

Further Thoughts

P² Law的提出为剪枝后模型的后训练资源分配提供了一个有价值的理论框架,但其局限性也启发了一些进一步的研究方向。首先,论文未能在更大规模模型(>8B参数)上验证定律的适用性,而当前LLM的发展趋势(如GPT-4、Llama-70B等)表明,大规模模型的剪枝和后训练可能是更关键的应用场景,未来研究应优先解决计算资源限制,验证P² Law在这些场景下的表现。其次,异常结果(如Llama-3.1-8B宽度剪枝)的出现提示不同模型架构和剪枝方法可能对后训练损失有复杂影响,是否可以通过引入架构特异性参数或剪枝方法特异性调整来增强P² Law的适应性?此外,P² Law与现有缩放定律(如Chinchilla)的关系值得深入探讨,是否可以构建一个统一的缩放框架,同时涵盖预训练和剪枝后训练的损失预测?最后,结合其他领域的研究,如神经网络剪枝在计算机视觉中的应用,是否能为LLM剪枝后训练提供新的视角,例如借鉴视觉模型中基于梯度敏感性的剪枝策略来优化后训练数据选择?这些问题值得进一步探索,以提升P² Law的理论深度和实际应用价值。



Previous Post
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
Next Post
Does quantization affect models' performance on long-context tasks?