Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

本文提出难度感知提示（DAP）方法，通过动态调整推理轨迹长度构建精简的LiteCoT数据集（100K样本，平均720token），训练的Liter模型在多个推理基准上显著优于传统长CoT方法，同时大幅降低训练和推理成本。

Large Language Model, Reasoning, Fine-tuning, Efficiency, Prompt Engineering

Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo

HKUST (Guangzhou), DeepWisdom

Generated by grok-3

Background Problem

大型语言模型（LLMs）通过生成详细的推理轨迹（Chain-of-Thought, CoT）在复杂任务（如数学推理）中表现出色，但现有CoT蒸馏方法存在两大问题：推理轨迹冗长导致训练和推理成本高昂，以及缺乏对问题难度的适应性，无法根据任务复杂度调整推理长度。这使得学生模型难以学习到高效且灵活的推理策略。因此，本研究旨在通过构建一个精简且难度自适应的CoT数据集，解决训练成本高和推理冗余的问题，同时保持模型性能。

Method

本研究提出了难度感知提示（Difficulty-Aware Prompting, DAP）方法，通过以下步骤优化CoT蒸馏过程：

核心思想：利用大型教师模型（如DeepSeek-R1）评估问题难度，并根据难度动态调整推理轨迹长度，避免冗余推理。
具体步骤：
1. 长CoT生成：教师模型首先为每个问题生成详细的长推理轨迹（Long CoT）。
2. 难度评估与精简：通过设计针对不同难度（简单、中等、复杂）的提示模板，教师模型评估问题难度，并根据难度级别重写长CoT为精简的短CoT（Short CoT），确保推理完整性同时减少token使用量。形式化表示为：难度评估 $d_i = M_{teacher}(Q_i, CoT_{L,i}, P_{DA})$ ，精简过程 $CoT_{S,d_i} = M_{teacher}((Q_i, CoT_{L,i}), P_{DA}, d_i)$ 。
数据集构建：基于DAP方法，构建了LiteCoT数据集，包含100K个难度自适应的推理样本，平均每个样本仅720个token。
批判性思考：虽然DAP方法在概念上创新，但论文未详细说明难度评估的具体机制和标准，可能导致评估不一致或主观性问题。此外，依赖单一教师模型进行难度判断和CoT重写，可能引入模型偏差，影响学生模型的泛化能力。

Experiment

实验设计分为三个部分，旨在验证LiteCoT数据集和DAP方法的有效性：

数据集与设置：使用OpenThoughts数据集作为基础，通过DAP处理生成LiteCoT（100K样本）。实验分为三组：Exp-1对比短CoT与长CoT的性能（25K样本）；Exp-2评估Liter模型与主流推理模型的对比（100K样本）；Exp-3对比DAP与其他CoT优化方法。基准模型包括Qwen2.5系列（1.5B至32B）和Llama3.1，测试覆盖11个推理基准（如MATH500、AIME24、GSM8K）。
结果：
1. Exp-1：短CoT训练的模型在所有基准上平均性能优于长CoT（如Qwen2.5-7B短CoT整体准确率57.3% vs 长CoT的53.3%），且推理时间显著减少。
2. Exp-2：Liter模型在多个基准上超越主流模型，如Liter-32B在AIME24上达到76.7%准确率，优于DeepSeek-R1蒸馏模型（72.6%），且token使用量大幅降低。
3. Exp-3：DAP方法在性能和速度上优于其他CoT优化方法，如在SAT Math上准确率达96.9%，显著高于其他方法。
分析与批判：实验结果表明DAP方法在效率和性能上具有明显优势，尤其在高难度任务中表现突出。然而，实验设计存在潜在问题：难度评估的主观性未被充分验证，可能影响结果可靠性；此外，短CoT是否适用于所有任务未被深入探讨，某些复杂任务可能因信息压缩而损失性能。基准对比中，部分结果直接引用自其他论文，未经统一测试，可能存在不公平性。

Further Thoughts

DAP方法在推理效率和性能平衡方面展现了潜力，但其依赖教师模型进行难度评估和CoT重写的机制可能限制其在不同模型架构或任务类型上的泛化能力。未来研究可以探索多模型协作的难度评估机制，以减少单一模型偏差。此外，短CoT是否会导致复杂任务中的信息丢失值得进一步验证，尤其是在跨领域任务（如从数学推理到自然语言推理）中，难度评估标准可能需要重新设计。另一个有趣的方向是将DAP与其他蒸馏技术（如RLHF或DPO）结合，探索是否能在对齐和效率之间找到更好的平衡点。结合近期关于长上下文处理（Long Context）的研究，是否可以通过动态调整上下文长度进一步优化推理效率，也是一个值得探索的交叉领域。