Skip to content
Go back 2406.16330 arXiv logo

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

Published:  at  11:14 AM
85.94 🤔

本文提出MKA方法,通过流形学习和信息瓶颈度量实现大语言模型的层合并压缩,在多个基准数据集上以较小的性能损失实现显著压缩率,并结合量化进一步提升效果。

Large Language Model, Efficiency, Representation Learning, Pre-training

Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui

哈尔滨工业大学, 中国科学技术大学, 中国科学院自动化研究所, 山东农业大学, 腾讯公司, 安徽大学

Generated by grok-3

Background Problem

大型语言模型(LLMs)在语言理解和生成任务上表现出色,但其巨大的参数量和计算复杂度对资源受限环境下的部署构成了挑战。传统的模型压缩方法,如参数剪枝,往往会丢失被剪枝参数中的重要知识,难以在性能和压缩率之间取得平衡。本文提出了一种新颖的压缩方法,旨在通过层级合并来减少模型大小,同时尽可能保留关键性能,解决传统剪枝方法在知识保留上的不足。

Method

本文提出的方法是基于流形知识对齐和层合并压缩(MKA),其核心思想和步骤如下:

Experiment

实验在多个基准数据集(如MMLU、PIQA、HellaSwag等)上进行,测试了多种LLM(如Llama2-7B/13B、Llama3-8B、Mistral-7B等)。

Further Thoughts

MKA方法在层合并上的创新值得关注,但其对流形学习和信息瓶颈理论的依赖可能限制其在不同架构模型上的泛化能力。未来研究可以探索更鲁棒的相似性度量方法,如基于深度特征的非参数化方法,以减少对数据分布假设的依赖。此外,早期层合并导致性能崩溃的现象提示我们,层间依赖性可能比论文假设的更复杂,是否可以通过分阶段合并或引入层级保护机制来缓解这一问题?与此同时,MKA与量化结合的效果显著,但计算开销和延迟问题未被充分讨论,建议后续工作在边缘设备或实时应用场景中测试其实际效果。另一个有趣的方向是,MKA是否可以与其他压缩技术(如知识蒸馏)结合,进一步提升压缩率和性能保留?例如,是否可以在合并层的同时蒸馏关键层的知识到剩余层中,以弥补早期层合并的损失?



Previous Post
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
Next Post
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models