Skip to content
Go back 2502.12594 arXiv logo

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

Published:  at  11:32 AM
87.10 🤔

PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择方法,通过语义聚类、能力退化感知选择和负面效应缓解,在有限数据预算下显著提升恢复性能并降低计算成本。

Large Language Model, Instruction Tuning, Efficiency, Data Augmentation, Reasoning

Bowei He, Lihao Yin, Hui-Ling Zhen, Xiaokun Zhang, Mingxuan Yuan, Chen Ma

City University of Hong Kong, Huawei Noah’s Ark Lab, Hong Kong

Generated by grok-3

Background Problem

大语言模型(LLM)的剪枝是一种有效的模型压缩方法,但不可避免地导致模型能力的显著退化,尤其是在高剪枝比例或结构化剪枝方案下更为严重。传统的恢复后训练方法(如指令调优)通常使用完整数据集,计算成本高且恢复效果不佳,甚至可能引入负面调优效应。PASER(Post-training dAta Selection for Efficient pruned large language model Recovery)旨在解决这一问题,通过在有限数据预算下选择最有价值的指令数据,针对性地恢复剪枝后模型最受损的能力,同时降低计算成本并避免负面效应。

Method

PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择框架,主要包括以下三个核心组件:

Experiment

PASER在多个大语言模型(如LLaMA2/3、Baichuan2)上进行了广泛实验,涵盖不同剪枝方案(结构化如LLM-Pruner、SliceGPT,半结构化如Wanda,非结构化如SparseGPT)和指令调优数据集(Alpaca、LaMini)。实验设置包括零样本评估,覆盖语言建模(WikiText2、PTB的困惑度)和常识推理任务(BoolQ、PIQA等7个数据集)。

Further Thoughts

PASER的研究为剪枝后模型恢复提供了一个有价值的视角,特别是在数据选择如何影响能力恢复方面。然而,其方法可能过度依赖语义嵌入和JSD等度量手段,这些手段在不同模型或数据集上的泛化性值得进一步探讨。例如,是否可以通过结合其他表征学习方法(如基于Transformer的上下文嵌入)来提高语义聚类的准确性?此外,PASER未考虑数据选择可能导致的能力偏见问题,例如过度关注某些能力(如推理)而忽略其他能力(如生成多样性),这可能在长期使用中影响模型的通用性。另一个有趣的方向是探索PASER与其他后训练优化技术(如数据增强或参数高效微调)的结合,以进一步提升恢复效果,尤其是在高剪枝比例或资源受限场景下。最后,PASER的理念可能延伸至其他模型压缩场景(如量化后恢复),甚至更广泛的模型适应性任务(如跨领域迁移),这需要未来研究进一步验证其适用性。



Previous Post
Born a Transformer -- Always a Transformer?
Next Post
Why Do More Experts Fail? A Theoretical Analysis of Model Merging