Skip to content
Go back 2505.18642 arXiv logo

Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster

Published:  at  11:53 AM
86.49 🤔

本文提出分块训练(CWT)和跳跃思维训练(STT),通过将推理过程分块并跳过非核心块,显著提升小型语言模型在链式思维蒸馏中的推理准确性和速度。

Large Language Model, Reasoning, Fine-tuning, Efficiency, Supervised Learning

Xiao Chen, Sihang Zhou, Ke Liang, Xiaoyu Sun, Xinwang Liu

National University of Defense Technology

Generated by grok-3

Background Problem

大型语言模型(LLM)通过链式思维(CoT)蒸馏可以指导小型语言模型(SLM)提升推理能力,但传统方法要求SLM在一次训练迭代中学习完整的长推理过程(rationale),导致两个关键问题:1)表层理解,由于长推理过程使得token级批次大小过大,核心推理token的梯度被过度平滑,SLM难以掌握推理逻辑,趋向于学习表达模式而非核心逻辑;2)响应速度慢,SLM在测试时需生成完整推理过程才能得出答案,耗时较长。本文旨在通过改进训练策略,解决SLM在CoT蒸馏中的表层理解和响应速度问题。

Method

本文提出了两种主要方法:分块训练(CWT)和跳跃思维训练(STT),以改进SLM在CoT蒸馏中的推理能力与速度。

批判性思考:CWT依赖于分块的合理性,但SBC的贪婪搜索可能陷入局部最优,论文未充分探讨全局最优分块策略(如模拟退火,僅在限制部分提及)。此外,STT对答案正确性的依赖可能因任务复杂度或数据集特性而失效,缺乏对判断标准的鲁棒性分析。方法设计中未考虑不同SLM规模对分块和跳跃策略的适应性,可能限制其普适性。

Experiment

本文在多个推理任务和SLM上验证了CWT和STT的效果,实验设计涵盖以下方面:

批判性思考:实验设置较为全面,覆盖多种任务和模型,但对比方法(如ICoT-SI)在部分SLM上未实现,可能导致对比不公平。分块数量M的选择对性能影响较大(图4),但实验仅展示趋势,缺乏系统性分析和理论依据。STT在复杂任务上加速效果有限,是否适用于更广泛场景存疑。此外,实验未充分探讨训练时间和内存消耗的实际影响(仅在附录F提及),对实际应用价值评估不足。

Further Thoughts

本文提出的CWT和STT方法在CoT蒸馏中展现了一定的创新性,尤其是在解决梯度平滑和推理速度问题上的尝试值得关注。然而,其方法设计和实验验证仍存在局限性,例如SBC的局部最优问题和STT对任务复杂度的适应性不足。进一步思考,是否可以引入更先进的搜索算法(如遗传算法或强化学习)来优化分块策略,以避免贪婪搜索的局限?此外,STT跳跃机制是否可以结合注意力机制,动态识别核心推理块,而非依赖静态的答案正确性判断?

从跨领域角度看,CWT的分块思想可能借鉴了自然语言处理中分段式处理(如长文本分割)的理念,但其在推理任务中的应用是否会引入上下文割裂问题,值得与长上下文处理技术(如Transformer的长序列优化)结合探讨。STT的跳跃机制与人类认知中的‘思维捷径’有相似之处,是否可以进一步结合认知科学理论,设计更符合人类推理模式的SLM训练策略?这些方向可能为未来的CoT蒸馏研究提供新的视角,同时也需要在更广泛的任务和模型规模上验证其普适性。



Previous Post
Behavior Injection: Preparing Language Models for Reinforcement Learning
Next Post
Parameter-Efficient Fine-Tuning with Column Space Projection