PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择方法,通过语义聚类、能力退化感知选择和负面效应缓解,在有限数据预算下显著提升恢复性能并降低计算成本。
Large Language Model, Instruction Tuning, Efficiency, Data Augmentation, Reasoning
Bowei He, Lihao Yin, Hui-Ling Zhen, Xiaokun Zhang, Mingxuan Yuan, Chen Ma
City University of Hong Kong, Huawei Noah’s Ark Lab, Hong Kong
Generated by grok-3
Background Problem
大语言模型(LLM)的剪枝是一种有效的模型压缩方法,但不可避免地导致模型能力的显著退化,尤其是在高剪枝比例或结构化剪枝方案下更为严重。传统的恢复后训练方法(如指令调优)通常使用完整数据集,计算成本高且恢复效果不佳,甚至可能引入负面调优效应。PASER(Post-training dAta Selection for Efficient pruned large language model Recovery)旨在解决这一问题,通过在有限数据预算下选择最有价值的指令数据,针对性地恢复剪枝后模型最受损的能力,同时降低计算成本并避免负面效应。
Method
PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择框架,主要包括以下三个核心组件:
- 语义结构化恢复指令聚类(Semantic-Structural Recovery Instruction Clustering):通过SentenceBERT嵌入和扩散核进行流形学习,降低维度并揭示语义空间中的几何结构,随后使用基于非负矩阵分解(NMF)的谱聚类将指令数据分组为与不同模型能力对应的簇。这一方法假设语义空间中的指令分布反映了模型能力的差异,但嵌入质量和聚类参数可能影响分组准确性。
- 能力退化感知的指令选择(Capability Degradation-Aware Instruction Selection):首先通过Jensen-Shannon散度(JSD)计算每个簇的能力退化分数(CDS),衡量剪枝前后模型输出分布的差异;然后根据CDS按比例分配数据预算,优先选择退化严重的簇内样本;最后在簇内基于个体效率分数(IES)选择样本,IES结合JSD和计算成本(以序列长度的二次方近似)。此方法虽有理论依据,但JSD对输出分布变化的敏感性可能导致评估偏差。
- 负面调优效应缓解(Negative Tuning Effects Mitigation):通过构建概念一致性图(Concept Consistency Graph, CCG)来过滤冲突或无关的指令数据,确保所选数据在语义上的一致性,减少恢复训练中的负面影响。这一机制在理论上有效,但概念提取和一致性判断的实现细节可能影响其实际效果。 总体而言,PASER方法在数据选择上展现了创新性,但其依赖的嵌入、聚类和JSD计算可能存在局限性,需进一步验证其鲁棒性。
Experiment
PASER在多个大语言模型(如LLaMA2/3、Baichuan2)上进行了广泛实验,涵盖不同剪枝方案(结构化如LLM-Pruner、SliceGPT,半结构化如Wanda,非结构化如SparseGPT)和指令调优数据集(Alpaca、LaMini)。实验设置包括零样本评估,覆盖语言建模(WikiText2、PTB的困惑度)和常识推理任务(BoolQ、PIQA等7个数据集)。
- 结果:PASER在大多数情况下显著优于随机选择和常规指令调优数据选择基线(如IFD、Nuggets),尤其在结构化剪枝(如SliceGPT)下,恢复后的平均推理性能甚至超过未剪枝模型(如LLaMA2-7B达到64.31 vs 62.91)。在不同模型和剪枝比例下,PASER保持了鲁棒性,例如在LLaMA2-70B高剪枝比例(50%)下,推理性能退化控制在3%以内。
- 分析:实验表明PASER通过能力退化感知的数据选择有效针对受损能力进行恢复,同时效率驱动的样本选择显著降低了训练时间(在低数据预算下尤为明显)。然而,部分情况下(如Baichuan2-7B在25%剪枝比例下),恢复性能仍不理想,可能与模型内部结构损坏严重有关。此外,实验未充分探讨数据选择偏差对长期能力平衡的影响。
- 合理性与局限:实验设置较为全面,涵盖多种模型、剪枝方案和数据集,但未讨论高剪枝比例下恢复失败的具体原因,也缺乏对数据选择过程中可能引入的能力偏见的分析。结果虽显示改进明显,但与未剪枝模型的差距在某些场景下仍存在,表明方法在极端压缩下的局限性。
Further Thoughts
PASER的研究为剪枝后模型恢复提供了一个有价值的视角,特别是在数据选择如何影响能力恢复方面。然而,其方法可能过度依赖语义嵌入和JSD等度量手段,这些手段在不同模型或数据集上的泛化性值得进一步探讨。例如,是否可以通过结合其他表征学习方法(如基于Transformer的上下文嵌入)来提高语义聚类的准确性?此外,PASER未考虑数据选择可能导致的能力偏见问题,例如过度关注某些能力(如推理)而忽略其他能力(如生成多样性),这可能在长期使用中影响模型的通用性。另一个有趣的方向是探索PASER与其他后训练优化技术(如数据增强或参数高效微调)的结合,以进一步提升恢复效果,尤其是在高剪枝比例或资源受限场景下。最后,PASER的理念可能延伸至其他模型压缩场景(如量化后恢复),甚至更广泛的模型适应性任务(如跨领域迁移),这需要未来研究进一步验证其适用性。