PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择方法，通过语义聚类、能力退化感知选择和负面效应缓解，在有限数据预算下显著提升恢复性能并降低计算成本。

Large Language Model, Instruction Tuning, Efficiency, Data Augmentation, Reasoning

Bowei He, Lihao Yin, Hui-Ling Zhen, Xiaokun Zhang, Mingxuan Yuan, Chen Ma

City University of Hong Kong, Huawei Noah’s Ark Lab, Hong Kong

Generated by grok-3

Background Problem

大语言模型（LLM）的剪枝是一种有效的模型压缩方法，但不可避免地导致模型能力的显著退化，尤其是在高剪枝比例或结构化剪枝方案下更为严重。传统的恢复后训练方法（如指令调优）通常使用完整数据集，计算成本高且恢复效果不佳，甚至可能引入负面调优效应。PASER（Post-training dAta Selection for Efficient pruned large language model Recovery）旨在解决这一问题，通过在有限数据预算下选择最有价值的指令数据，针对性地恢复剪枝后模型最受损的能力，同时降低计算成本并避免负面效应。

Method

PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择框架，主要包括以下三个核心组件：

语义结构化恢复指令聚类（Semantic-Structural Recovery Instruction Clustering）：通过SentenceBERT嵌入和扩散核进行流形学习，降低维度并揭示语义空间中的几何结构，随后使用基于非负矩阵分解（NMF）的谱聚类将指令数据分组为与不同模型能力对应的簇。这一方法假设语义空间中的指令分布反映了模型能力的差异，但嵌入质量和聚类参数可能影响分组准确性。
能力退化感知的指令选择（Capability Degradation-Aware Instruction Selection）：首先通过Jensen-Shannon散度（JSD）计算每个簇的能力退化分数（CDS），衡量剪枝前后模型输出分布的差异；然后根据CDS按比例分配数据预算，优先选择退化严重的簇内样本；最后在簇内基于个体效率分数（IES）选择样本，IES结合JSD和计算成本（以序列长度的二次方近似）。此方法虽有理论依据，但JSD对输出分布变化的敏感性可能导致评估偏差。
负面调优效应缓解（Negative Tuning Effects Mitigation）：通过构建概念一致性图（Concept Consistency Graph, CCG）来过滤冲突或无关的指令数据，确保所选数据在语义上的一致性，减少恢复训练中的负面影响。这一机制在理论上有效，但概念提取和一致性判断的实现细节可能影响其实际效果。总体而言，PASER方法在数据选择上展现了创新性，但其依赖的嵌入、聚类和JSD计算可能存在局限性，需进一步验证其鲁棒性。

Experiment

PASER在多个大语言模型（如LLaMA2/3、Baichuan2）上进行了广泛实验，涵盖不同剪枝方案（结构化如LLM-Pruner、SliceGPT，半结构化如Wanda，非结构化如SparseGPT）和指令调优数据集（Alpaca、LaMini）。实验设置包括零样本评估，覆盖语言建模（WikiText2、PTB的困惑度）和常识推理任务（BoolQ、PIQA等7个数据集）。

结果：PASER在大多数情况下显著优于随机选择和常规指令调优数据选择基线（如IFD、Nuggets），尤其在结构化剪枝（如SliceGPT）下，恢复后的平均推理性能甚至超过未剪枝模型（如LLaMA2-7B达到64.31 vs 62.91）。在不同模型和剪枝比例下，PASER保持了鲁棒性，例如在LLaMA2-70B高剪枝比例（50%）下，推理性能退化控制在3%以内。
分析：实验表明PASER通过能力退化感知的数据选择有效针对受损能力进行恢复，同时效率驱动的样本选择显著降低了训练时间（在低数据预算下尤为明显）。然而，部分情况下（如Baichuan2-7B在25%剪枝比例下），恢复性能仍不理想，可能与模型内部结构损坏严重有关。此外，实验未充分探讨数据选择偏差对长期能力平衡的影响。
合理性与局限：实验设置较为全面，涵盖多种模型、剪枝方案和数据集，但未讨论高剪枝比例下恢复失败的具体原因，也缺乏对数据选择过程中可能引入的能力偏见的分析。结果虽显示改进明显，但与未剪枝模型的差距在某些场景下仍存在，表明方法在极端压缩下的局限性。

Further Thoughts

PASER的研究为剪枝后模型恢复提供了一个有价值的视角，特别是在数据选择如何影响能力恢复方面。然而，其方法可能过度依赖语义嵌入和JSD等度量手段，这些手段在不同模型或数据集上的泛化性值得进一步探讨。例如，是否可以通过结合其他表征学习方法（如基于Transformer的上下文嵌入）来提高语义聚类的准确性？此外，PASER未考虑数据选择可能导致的能力偏见问题，例如过度关注某些能力（如推理）而忽略其他能力（如生成多样性），这可能在长期使用中影响模型的通用性。另一个有趣的方向是探索PASER与其他后训练优化技术（如数据增强或参数高效微调）的结合，以进一步提升恢复效果，尤其是在高剪枝比例或资源受限场景下。最后，PASER的理念可能延伸至其他模型压缩场景（如量化后恢复），甚至更广泛的模型适应性任务（如跨领域迁移），这需要未来研究进一步验证其适用性。