Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning

本文提出Prune-on-Logic框架，通过将长链思维（Long-CoT）转化为逻辑图并选择性剪枝低效验证步骤，在提升小型语言模型（SLMs）推理准确率的同时降低推理成本，揭示了剪枝作为能力对齐策略的潜力。

Large Language Model, Reasoning, Efficiency, Fine-tuning, Representation Learning

Shangziqi Zhao, Jiahao Yuan, Guisong Yang, Usman Naseem

Xi’an Jiaotong University, University of Shanghai for Science and Technology, Macquarie University

Generated by grok-3

Background Problem

大型语言模型（LLMs）通过长链思维（Long-CoT）在复杂推理任务中显著提升了准确性，但其冗长且自反性的推理过程带来了高计算成本和内存需求，尤其是在推理延迟和注意力机制的二次方计算成本方面。这种特性使得Long-CoT难以直接应用于资源受限的小型语言模型（SLMs）。现有基于令牌级别的压缩方法（如提示压缩或LLMLingua）往往是有损的，容易丢失关键推理信息，影响SLMs在长上下文推理中的表现。本文从能力对齐（capability alignment）的视角重新审视Long-CoT压缩，提出核心问题：剪枝是否能改善推理能力？其目标是通过结构化剪枝，提炼出更高效、更符合SLM能力的推理路径，而不仅仅是缩短输出长度。

Method

本文提出了Prune-on-Logic，一个结构感知的压缩框架，旨在通过逻辑图构建和选择性剪枝低效推理步骤来优化Long-CoT推理路径。具体方法如下：

逻辑图构建：将Long-CoT序列转化为有向无环图（DAG），其中节点代表推理步骤（如符号操作或推导结论），边表示逻辑依赖关系。通过LLM提示进行节点分割（区分推理步骤和修辞连接词）及节点间依赖关系的构建，并引入自验证步骤以提高连接准确性。
基于损失的剪枝评分：使用预训练小型语言模型（SLM）计算每个节点的语义贡献，通过比较节点保留和剪枝后的令牌级困惑度（Perplexity）差异，得出语义效用分数（Score）。分数较低的节点被认为是低效的，可被剪枝。
三种剪枝策略：
- 全链剪枝（All-chain）：从整个逻辑图中移除低分节点，作为通用压缩基准。
- 仅推理剪枝（Reasoning-only）：仅剪枝中间推导步骤，保留最终结论和验证部分，偏向保守压缩。
- 仅验证剪枝（Verification-only）：针对自检或反思性语句（如‘让我们验证’），旨在减少修辞冗余，保留计算核心。
剪枝粒度：包括节点级剪枝（移除整个推理步骤）和连接级剪枝（移除修辞性连接），均基于相同的损失评分机制。

批判性思考：虽然逻辑图的构建为结构化剪枝提供了创新视角，但其依赖于LLM生成的高质量逻辑图和验证标签，可能在无监督或噪声环境下失效。此外，基于困惑度的评分机制可能过于依赖SLM的预测能力，未充分考虑推理步骤间的深层语义依赖，可能导致重要步骤被误剪。

Experiment

实验在两个小型语言模型（DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Qwen-7B）上进行，使用Bespoke-Stratos-17k数据集进行训练，并在多个推理任务数据集（包括AMC23、AIME、MATH500、GSM8K和BBH）上评估三种剪枝策略（全链、仅推理、仅验证）在不同剪枝比例（γ=0.5, 0.7, 0.9, 1.0）下的表现。评估指标包括零样本设置下的pass@1准确率（Avg. Acc.）和推理令牌数量变化（Token Change）。

结果分析：

验证剪枝效果最佳：仅验证剪枝（Verification-only）在两个模型上均显著提升了准确率（如Qwen-7B从57.0%提升至63.0%），同时减少了令牌使用量（最高9.51%减少），表明SLMs受益于语义更精简的推理链，而非冗长的验证步骤。
全链和推理剪枝效果不佳：全链剪枝（All-chain）即使在中等剪枝比例下也导致性能崩溃（如Qwen-7B准确率降至18.1%），仅推理剪枝（Reasoning-only）在轻度剪枝下表现尚可，但重度剪枝后性能下降，表明核心推理步骤对SLMs至关重要。
节点 vs 连接剪枝：在验证步骤中，剪枝逻辑节点比剪枝修辞连接更有效，前者显著提升准确率，后者则导致性能大幅下降，显示逻辑节点在推理结构中的重要性。
跨领域和模型一致性：验证剪枝在不同模型和领域（包括领域内和领域外任务）中均表现出稳健的性能提升，表明其普适性。

实验设置评价：实验设计较为系统，涵盖了多种剪枝策略和比例，并使用了多个数据集进行验证。然而，实验仅限于两个小型模型，未涉及中型或大型模型的表现，可能限制结论的广泛适用性。此外，数据集的选择偏向数学和逻辑推理任务，未充分覆盖其他类型的推理场景，可能存在任务偏见。

批判性思考：验证剪枝提升性能的结果令人意外，但作者未深入探讨其原因，仅归结为SLMs对冗余信息的处理能力不足。我认为这可能与验证步骤在某些任务中的低效性有关，但是否在所有任务中都成立值得进一步验证。此外，实验中令牌数量变化与性能提升之间并非线性关系，作者未充分分析这种非线性背后的潜在机制，可能错过了一些关键洞察。

Further Thoughts

本文提出的验证剪枝（Verification-only）策略在提升SLMs推理性能方面的成功令人印象深刻，但其背后的机制仍需进一步探索。验证步骤在推理中的作用是否因任务类型或模型规模而异？例如，在需要高度自反性的任务（如多轮对话或复杂决策）中，验证步骤可能并非冗余，而是关键的语义锚点。此外，作者未考虑动态剪枝的可能性，即在推理时根据上下文需求实时调整剪枝策略，这可能是未来研究的一个重要方向。

从更广泛的视角看，Prune-on-Logic框架与近年来图神经网络（GNN）在结构化推理中的应用有潜在联系。逻辑图的构建和剪枝过程是否可以借鉴GNN的节点重要性评估方法，进一步提升剪枝的精度？同时，本文的方法可能对多模态推理任务有启发，例如在视觉-语言模型中，是否可以通过类似逻辑图的方式对多模态推理路径进行结构化剪枝，以提升效率？这些跨领域联系值得深入探讨，以验证结构化剪枝在不同AI应用中的普适性。