Skip to content
Go back 2502.19159 arXiv logo

A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs

Published:  at  11:13 AM
90.44 🤔

本文提出滑动层合并(SLM)方法,通过基于CKA相似性动态合并大型语言模型的连续层,实现深度剪枝,在零样本任务和推理效率上显著优于现有方法,同时探索了深度与宽度剪枝结合的潜力。

Large Language Model, Transformer, Efficiency, Pre-training, Fine-tuning

Xuan Ding, Rui Sun, Yunjian Zhang, Xiu Yan, Yueqi Zhou, Kaihao Huang, Suzhong Fu, Angelica I Aviles-Rivero, Chuanlong Xie, Yao Zhu

Beijing Normal University, The Chinese University of Hong Kong, Shenzhen, Zhejiang University, University of Chinese Academy of Sciences, Tsinghua University

Generated by grok-3

Background Problem

大型语言模型(LLMs)因其卓越性能而受到广泛关注,但其庞大的参数规模对实际部署和资源受限环境构成了重大挑战。模型剪枝作为一种有效的压缩方法,通过移除冗余参数来降低复杂度和资源需求。相比于宽度剪枝(Width-Wise Pruning),深度剪枝(Depth-Wise Pruning)通过移除整个层来减少模型深度,能在资源受限场景下显著加速推理。然而,现有深度剪枝方法常因直接移除层而导致性能下降,缺乏对层间相关性的深入分析和精细处理。本文从探索LLM中不同层输出特征的相关性入手,揭示了连续层之间高度相似的’Patch-like’结构,并基于此提出了一种新的深度剪枝方法,旨在解决如何在大幅压缩模型的同时尽可能保留其性能这一关键问题。

Method

本文提出了一种滑动层合并(Sliding Layer Merging, SLM)方法,用于大型语言模型的深度剪枝。其核心思想和步骤如下:

Experiment

实验设计和结果如下:

Further Thoughts

本文提出的滑动层合并方法在深度剪枝领域提供了有价值的思路,尤其是在层间相似性分析和动态合并策略上的创新。然而,我认为其对CKA度量的依赖可能是一个潜在的局限,因为CKA主要关注线性相关性,可能无法捕捉非线性依赖或上下文相关的层间关系,未来可以探索其他度量方法(如互信息或基于任务的性能影响评估)来补充分析。此外,滑动窗口的单向合并策略(从深到浅)可能忽略了双向依赖,是否可以通过双向或多轮合并进一步优化值得研究。另一个有趣的方向是深度与宽度剪枝结合的潜力,本文虽有初步探索,但未深入分析不同比例对性能和效率的具体影响,未来可以结合自动化搜索(如NAS)来寻找最优组合策略。最后,考虑到LLMs在不同任务上的表现差异(如推理、生成),是否可以通过任务特定的剪枝策略进一步提升性能,也是一个值得探索的跨领域问题,特别是在资源受限的边缘设备部署场景中。



Previous Post
RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning
Next Post
Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs