Skip to content
Go back 2502.18001 arXiv logo

Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning

Published:  at  11:23 AM
89.33 🤔

本文系统研究了CoT蒸馏中教师模型选择、粒度和格式对小型语言模型(SLMs)推理能力的影响,发现强模型受益于高粒度CoT而弱模型偏好中等粒度,格式影响有限,且教师模型能力并非决定学生表现的唯一因素。

Large Language Model, Fine-tuning, Reasoning, Efficiency

Xinghao Chen, Zhijing Sun, Wenjin Guo, Miaoran Zhang, Yanjun Chen, Yirong Sun, Hui Su, Yijie Pan, Dietrich Klakow, Wenjie Li, Xiaoyu Shen

The Hong Kong Polytechnic University, Ningbo Key Laboratory of Spatial Intelligence and Digital Derivative, Institute of Digital Twin, EIT, Saarland University, Meituan Inc.

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过链式思维(CoT)提示在推理任务中表现出色,但其高计算需求限制了在资源受限环境中的应用,因此将CoT能力蒸馏到小型语言模型(SLMs)成为一个重要研究方向。本文聚焦于优化CoT蒸馏过程,解决的关键问题是:如何选择最有效的CoT监督策略(包括教师模型、粒度和格式),以提升SLMs的推理能力,特别是在数学和常识推理任务中。

Method

本文提出了一种系统性框架,用于分析CoT蒸馏中的三个关键因素:

Experiment

实验在四个数学推理数据集(SVAMP、GSM8K、AQuA-RAT、MATH)和三个常识推理数据集(CommonsenseQA、OpenBookQA、StrategyQA)上进行,使用四种教师模型(GPT-4o、Gemini-1.5-Flash、LLaMA 3 70B、人类标注)为七种学生模型生成CoT监督数据。实验设置涵盖不同粒度级别(1-6级)和格式(原始CoT及三种替代格式),以准确率作为评估指标。

Further Thoughts

本文提出的非单调粒度关系和教师模型选择的非线性影响为CoT蒸馏研究提供了新视角,但其结论可能受限于实验中使用的特定模型和数据集,未来可通过更广泛的模型架构和任务类型验证其普适性。此外,论文中提到的‘马太效应’(强模型获益更多)让我联想到教育心理学中的‘最近发展区’(ZPD)理论,这提示我们是否可以借鉴教育领域的课程设计理念,为不同能力的SLMs设计渐进式CoT监督策略,例如从低粒度逐步过渡到高粒度,以避免弱模型被复杂推理淹没。同时,格式影响有限的结论可能与SLMs的预训练数据分布有关,若能在预训练阶段引入更多结构化推理数据,是否能提升其对格式的适应性?这值得进一步探索。最后,教师模型生成CoT的质量(如逻辑一致性、噪声水平)可能是影响蒸馏效果的关键因素,未来研究可引入质量评估机制,结合生成数据过滤或增强技术,进一步优化CoT蒸馏过程。



Previous Post
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
Next Post
PICD: Versatile Perceptual Image Compression with Diffusion Rendering