本文通过仅使用920个蒸馏样本对Qwen2.5-32B基础模型进行监督微调,显著超越了资源密集的Zero-RL方法,并揭示了蒸馏模型通过拟人化语言和高级认知行为实现更灵活推理的机制。
Large Language Model, Reasoning, Supervised Learning, Reinforcement Learning
Xiao Hu, Xingyu Lu, Liyuan Mao, YiFan Zhang, Tianke Zhang, Bin Wen, Fan Yang, Tingting Gao, Guorui Zhou
Tsinghua University, Shanghai Jiao Tong University, CASIA, KuaiShou
Generated by grok-3
Background Problem
近年来,大型语言模型(LLMs)在复杂推理任务(如数学和编码)上取得了显著进展,强化学习(RL)在后训练阶段发挥了关键作用。一些研究直接对较小的基础模型(参数少于32B)应用RL(即Zero-RL),也取得了进展。然而,Zero-RL通常需要大量数据和计算资源,而一些研究表明,通过蒸馏(Distillation)方法对小模型进行微调可能更有效。本文聚焦于以下问题:在相同基础模型(参数少于32B)下,少量高质量蒸馏数据是否能匹敌甚至超越Zero-RL?如果是,这些蒸馏数据究竟教会了模型什么?
Method
本文提出了一种简单的蒸馏方法,核心思想是从强大的推理模型(如DeepSeek R1)中提取少量高质量推理数据,用于对基础模型(Qwen2.5-32B)进行监督微调(SFT),以提升其推理能力。具体步骤如下:
- 数据集构建:收集1983-2023年所有AIME问题(共920个),使用DeepSeek R1生成对应解答,形成蒸馏数据集。未对答案正确性进行过滤,保留所有样本。
- 模型训练:对Qwen2.5-32B基础模型进行5轮SFT,使用Qwen2.5-Math的提示模板。
- 分析方法:通过令牌频率分析,比较蒸馏模型与Zero-RL模型输出中的拟人化词汇、逻辑连接词和数学推理词汇的使用情况。此外,使用GPT-4o识别模型输出中的两种高级认知行为:多视角思考(Multi-Perspective Thinking)和元认知意识(Metacognitive Awareness),以解释推理能力的提升。
批判性思考:虽然方法简单直接,但未过滤数据集可能引入噪声,影响模型学习效果,论文未充分探讨这一潜在问题。此外,依赖GPT-4o进行认知行为分析可能引入主观偏差,缺乏更客观的评估标准。
Experiment
实验基于Qwen2.5-32B基础模型,比较了蒸馏模型(训练样本仅920个)和三种开源Zero-RL模型(训练样本数千至数万)的性能。数据集包括AIME2024、AIME2025、HMMT Feb 2025、GPQA Diamond和MATH500等五个挑战性基准。实验设置注重公平性,统一评估参数(如温度设为1,top-p为0.95),并报告多轮运行的平均结果(Avg@32和Avg@8)。
结果:蒸馏模型在所有基准上均显著优于Zero-RL模型,例如在AIME2024上,蒸馏模型的Avg@32得分为61.2,而最佳Zero-RL模型(DAPO-32B)仅为50.6。此外,蒸馏模型输出更长,显示出更复杂的推理过程。进一步分析表明,蒸馏模型频繁使用拟人化词汇和逻辑连接词,表现出更多高级认知行为,而Zero-RL模型未能显著提升这些行为。
批判性评价:实验结果令人印象深刻,特别是在资源使用上的巨大差异(蒸馏模型样本数远少于Zero-RL)下。然而,实验设计存在局限:蒸馏数据集未过滤可能导致结果高估,且Zero-RL模型的训练细节(如奖励函数设计)未充分探讨,可能影响公平性。此外,实验仅基于一个基础模型和单一教师模型,缺乏跨模型的泛化性验证。结果虽符合预期,但对认知行为的分析依赖主观工具(GPT-4o),可能影响结论的可靠性。
Further Thoughts
本文提出的蒸馏方法在资源效率和推理能力提升方面展现了潜力,但其结论可能过于乐观,需进一步验证其在不同基础模型和教师模型组合下的泛化性。蒸馏模型是否真正内化了高级认知行为,还是仅模仿了教师模型的语言风格,值得深入探讨。未来的研究可以引入更客观的认知行为评估方法,例如基于人类专家标注或行为模式的可量化指标,而非依赖GPT-4o。此外,Zero-RL的局限性可能与奖励函数设计和数据选择有关,是否可以通过改进奖励机制或结合蒸馏与RL(如论文提到的后续RL扩展)进一步提升性能,是一个有趣的方向。跨领域应用也值得关注,例如将这种蒸馏方法应用于科学推理或代码生成任务,测试其在不同复杂推理场景下的适应性。最后,本文未讨论蒸馏数据中错误答案的潜在影响,若能设计实验对比过滤与未过滤数据集的效果,可能为蒸馏方法的设计提供更实用的指导。