Skip to content
Go back 2505.14464 arXiv logo

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

Published:  at  11:11 AM
86.97 🤔

本文通过从三个顶尖大语言模型中提炼189万推理数据,系统研究了提炼源对学生模型性能的影响,发现AM-Thinking-v1提炼数据在多个推理基准上显著提升学生模型表现,并展现出适应性生成长度特性。

Large Language Model, Reasoning, Pre-training, Fine-tuning

Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li

Beike (Ke.com)

Generated by grok-3

Background Problem

近年来,大语言模型(LLMs)的推理能力通过提炼(Distillation)技术得到了显著提升,即通过从强大的教师模型中提取推理轨迹(Reasoning Traces)来训练较小的开源模型。然而,不同教师模型提炼出的数据质量和特性差异对学生模型性能的影响尚未被充分研究。本文旨在探索这一问题,通过系统性地从三个顶尖模型(AM-Thinking-v1, Qwen3-235B-A22B, DeepSeek-R1)中提炼推理数据,分析其数据分布特性,并评估其对学生模型在数学、编程等推理任务上的影响,试图回答‘提炼源的选择是否重要’这一关键问题。

Method

本文提出了一种大规模推理数据提炼框架,核心步骤如下:

Experiment

实验基于从三个教师模型提炼的并行数据集(189万查询),在四个推理基准(AIME2024, AIME2025, MATH500, LiveCodeBench)上评估学生模型性能。实验设置统一,基于Qwen2.5-32B模型训练,生成长度上限为49,152 token,采样温度为0.6。结果显示,AM-Thinking-v1提炼数据的学生模型在所有基准上表现最佳(如AIME2024得分为84.3,AIME2025为72.2,MATH500为98.4,LiveCodeBench为65.9),显著优于其他两个模型。此外,AM-Thinking-v1提炼模型展现出适应性生成长度特性,在较难任务(如AIME)上生成更长响应,在简单任务(如MATH500)上生成较短响应。训练损失曲线也表明AM-Thinking-v1数据提供了更强的学习信号。 批判性分析:实验结果看似令人印象深刻,但基准选择和评估方式可能偏向AM-Thinking-v1数据特性(如token长度分布),缺乏对结果稳健性的进一步验证(如交叉验证或更多基准)。此外,困惑度评估所用模型未详细说明,可能影响数据质量评估的可信度。实验设计虽全面,但未充分探讨提炼数据可能存在的过拟合或污染问题。

Further Thoughts

本文的研究为推理数据提炼提供了一个有价值的视角,但其对AM-Thinking-v1数据优越性的解释仍显表面,未来可以进一步探索数据分布特性(如token长度多样性)与模型推理能力提升之间的因果关系。此外,提炼过程中验证模型的选择和潜在的数据污染问题值得更多关注,可以引入独立第三方验证机制或更多样化的基准测试来增强结果的可信度。另一个有趣的方向是将提炼数据与强化学习技术(如PPO)结合,进一步优化学生模型的推理能力和任务适应性,同时可以参考其他领域(如计算机视觉中的数据增强)的方法,探索推理数据合成或增强的可能性,以减少对教师模型的依赖。



Previous Post
MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities
Next Post
Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization