Skip to content
Go back 2505.19716 arXiv logo

Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

Published:  at  11:20 AM
85.03 🤔

本文提出难度感知提示(DAP)方法,通过动态调整推理轨迹长度构建精简的LiteCoT数据集(100K样本,平均720token),训练的Liter模型在多个推理基准上显著优于传统长CoT方法,同时大幅降低训练和推理成本。

Large Language Model, Reasoning, Fine-tuning, Efficiency, Prompt Engineering

Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo

HKUST (Guangzhou), DeepWisdom

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过生成详细的推理轨迹(Chain-of-Thought, CoT)在复杂任务(如数学推理)中表现出色,但现有CoT蒸馏方法存在两大问题:推理轨迹冗长导致训练和推理成本高昂,以及缺乏对问题难度的适应性,无法根据任务复杂度调整推理长度。这使得学生模型难以学习到高效且灵活的推理策略。因此,本研究旨在通过构建一个精简且难度自适应的CoT数据集,解决训练成本高和推理冗余的问题,同时保持模型性能。

Method

本研究提出了难度感知提示(Difficulty-Aware Prompting, DAP)方法,通过以下步骤优化CoT蒸馏过程:

Experiment

实验设计分为三个部分,旨在验证LiteCoT数据集和DAP方法的有效性:

Further Thoughts

DAP方法在推理效率和性能平衡方面展现了潜力,但其依赖教师模型进行难度评估和CoT重写的机制可能限制其在不同模型架构或任务类型上的泛化能力。未来研究可以探索多模型协作的难度评估机制,以减少单一模型偏差。此外,短CoT是否会导致复杂任务中的信息丢失值得进一步验证,尤其是在跨领域任务(如从数学推理到自然语言推理)中,难度评估标准可能需要重新设计。另一个有趣的方向是将DAP与其他蒸馏技术(如RLHF或DPO)结合,探索是否能在对齐和效率之间找到更好的平衡点。结合近期关于长上下文处理(Long Context)的研究,是否可以通过动态调整上下文长度进一步优化推理效率,也是一个值得探索的交叉领域。



Previous Post
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling
Next Post
Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models