Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

本文提出MKA方法，通过流形学习和信息瓶颈度量实现大语言模型的层合并压缩，在多个基准数据集上以较小的性能损失实现显著压缩率，并结合量化进一步提升效果。

Large Language Model, Efficiency, Representation Learning, Pre-training

Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui

哈尔滨工业大学, 中国科学技术大学, 中国科学院自动化研究所, 山东农业大学, 腾讯公司, 安徽大学

Generated by grok-3

Background Problem

大型语言模型（LLMs）在语言理解和生成任务上表现出色，但其巨大的参数量和计算复杂度对资源受限环境下的部署构成了挑战。传统的模型压缩方法，如参数剪枝，往往会丢失被剪枝参数中的重要知识，难以在性能和压缩率之间取得平衡。本文提出了一种新颖的压缩方法，旨在通过层级合并来减少模型大小，同时尽可能保留关键性能，解决传统剪枝方法在知识保留上的不足。

Method

本文提出的方法是基于流形知识对齐和层合并压缩（MKA），其核心思想和步骤如下：

流形学习提取知识：通过提取LLM各层的激活值，使用扩散核算法（Diffusion Kernel）将高维激活数据转换为低维流形表示，捕捉激活数据的非线性结构并实现降维，以便更有效地比较不同层之间的知识模式。
相似性对齐与层合并：基于信息瓶颈（IB）原理，构建层间相似性矩阵，通过最大化层间互信息并考虑熵来量化层间相似性；根据相似性矩阵选择最相似的层对进行合并，合并时采用加权组合参数的方式，权重由归一化互信息（NMI）决定。
关键点与批评：方法未修改原始模型结构，仅通过层合并实现压缩，理论上能保留更多知识。然而，扩散核算法对激活数据的非线性结构捕捉可能受限于数据分布假设（如高斯假设），且IB度量的计算依赖于联合高斯分布假设，这可能在复杂模型中不完全成立，导致相似性评估不准确。此外，合并权重仅基于NMI的启发式方法可能无法最优地平衡信息保留和压缩效果。

Experiment

实验在多个基准数据集（如MMLU、PIQA、HellaSwag等）上进行，测试了多种LLM（如Llama2-7B/13B、Llama3-8B、Mistral-7B等）。

设置与基线：实验对比了MKA与多种剪枝方法（如ShortGPT、PruneMe等），并结合量化方法（如SmoothQuant、GPTQ）进一步压缩。压缩率通过保留层数与总层数的比例计算，性能指标为准确率（Accuracy）。
结果：MKA在MMLU数据集上表现出色，例如在Llama3-8B模型上，压缩率达43.75%时性能仅下降2.82%，优于传统剪枝方法；在结合量化后，压缩率高达85.94%时仍显著优于基线（如MKA+SmoothQuant准确率为64.20%，而ShortGPT+SmoothQuant仅为26.54%）。
分析与批评：实验设置较为全面，覆盖了多种模型和数据集，但对基线方法的参数优化程度未充分说明，可能导致对比不完全公平。此外，性能崩溃点（如早期层合并导致的矩阵崩溃）未深入分析其原因，缺乏对计算开销的评估，限制了方法在实际部署中的可行性判断。结果显示MKA延迟了性能崩溃，但是否可持续仍需更多实验验证。

Further Thoughts

MKA方法在层合并上的创新值得关注，但其对流形学习和信息瓶颈理论的依赖可能限制其在不同架构模型上的泛化能力。未来研究可以探索更鲁棒的相似性度量方法，如基于深度特征的非参数化方法，以减少对数据分布假设的依赖。此外，早期层合并导致性能崩溃的现象提示我们，层间依赖性可能比论文假设的更复杂，是否可以通过分阶段合并或引入层级保护机制来缓解这一问题？与此同时，MKA与量化结合的效果显著，但计算开销和延迟问题未被充分讨论，建议后续工作在边缘设备或实时应用场景中测试其实际效果。另一个有趣的方向是，MKA是否可以与其他压缩技术（如知识蒸馏）结合，进一步提升压缩率和性能保留？例如，是否可以在合并层的同时蒸馏关键层的知识到剩余层中，以弥补早期层合并的损失？