Skip to content
Go back 2505.14582 arXiv logo

Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning

Published:  at  11:18 AM
87.16 🤔

本文提出Prune-on-Logic框架,通过将长链思维(Long-CoT)转化为逻辑图并选择性剪枝低效验证步骤,在提升小型语言模型(SLMs)推理准确率的同时降低推理成本,揭示了剪枝作为能力对齐策略的潜力。

Large Language Model, Reasoning, Efficiency, Fine-tuning, Representation Learning

Shangziqi Zhao, Jiahao Yuan, Guisong Yang, Usman Naseem

Xi’an Jiaotong University, University of Shanghai for Science and Technology, Macquarie University

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过长链思维(Long-CoT)在复杂推理任务中显著提升了准确性,但其冗长且自反性的推理过程带来了高计算成本和内存需求,尤其是在推理延迟和注意力机制的二次方计算成本方面。这种特性使得Long-CoT难以直接应用于资源受限的小型语言模型(SLMs)。现有基于令牌级别的压缩方法(如提示压缩或LLMLingua)往往是有损的,容易丢失关键推理信息,影响SLMs在长上下文推理中的表现。本文从能力对齐(capability alignment)的视角重新审视Long-CoT压缩,提出核心问题:剪枝是否能改善推理能力?其目标是通过结构化剪枝,提炼出更高效、更符合SLM能力的推理路径,而不仅仅是缩短输出长度。

Method

本文提出了Prune-on-Logic,一个结构感知的压缩框架,旨在通过逻辑图构建和选择性剪枝低效推理步骤来优化Long-CoT推理路径。具体方法如下:

批判性思考:虽然逻辑图的构建为结构化剪枝提供了创新视角,但其依赖于LLM生成的高质量逻辑图和验证标签,可能在无监督或噪声环境下失效。此外,基于困惑度的评分机制可能过于依赖SLM的预测能力,未充分考虑推理步骤间的深层语义依赖,可能导致重要步骤被误剪。

Experiment

实验在两个小型语言模型(DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Qwen-7B)上进行,使用Bespoke-Stratos-17k数据集进行训练,并在多个推理任务数据集(包括AMC23、AIME、MATH500、GSM8K和BBH)上评估三种剪枝策略(全链、仅推理、仅验证)在不同剪枝比例(γ=0.5, 0.7, 0.9, 1.0)下的表现。评估指标包括零样本设置下的pass@1准确率(Avg. Acc.)和推理令牌数量变化(Token Change)。

结果分析

实验设置评价:实验设计较为系统,涵盖了多种剪枝策略和比例,并使用了多个数据集进行验证。然而,实验仅限于两个小型模型,未涉及中型或大型模型的表现,可能限制结论的广泛适用性。此外,数据集的选择偏向数学和逻辑推理任务,未充分覆盖其他类型的推理场景,可能存在任务偏见。

批判性思考:验证剪枝提升性能的结果令人意外,但作者未深入探讨其原因,仅归结为SLMs对冗余信息的处理能力不足。我认为这可能与验证步骤在某些任务中的低效性有关,但是否在所有任务中都成立值得进一步验证。此外,实验中令牌数量变化与性能提升之间并非线性关系,作者未充分分析这种非线性背后的潜在机制,可能错过了一些关键洞察。

Further Thoughts

本文提出的验证剪枝(Verification-only)策略在提升SLMs推理性能方面的成功令人印象深刻,但其背后的机制仍需进一步探索。验证步骤在推理中的作用是否因任务类型或模型规模而异?例如,在需要高度自反性的任务(如多轮对话或复杂决策)中,验证步骤可能并非冗余,而是关键的语义锚点。此外,作者未考虑动态剪枝的可能性,即在推理时根据上下文需求实时调整剪枝策略,这可能是未来研究的一个重要方向。

从更广泛的视角看,Prune-on-Logic框架与近年来图神经网络(GNN)在结构化推理中的应用有潜在联系。逻辑图的构建和剪枝过程是否可以借鉴GNN的节点重要性评估方法,进一步提升剪枝的精度?同时,本文的方法可能对多模态推理任务有启发,例如在视觉-语言模型中,是否可以通过类似逻辑图的方式对多模态推理路径进行结构化剪枝,以提升效率?这些跨领域联系值得深入探讨,以验证结构化剪枝在不同AI应用中的普适性。



Previous Post
Language Models are Universal Embedders
Next Post
SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning