Not All Correct Answers Are Equal: Why Your Distillation Source Matters

本文通过从三个顶尖大语言模型中提炼189万推理数据，系统研究了提炼源对学生模型性能的影响，发现AM-Thinking-v1提炼数据在多个推理基准上显著提升学生模型表现，并展现出适应性生成长度特性。

Large Language Model, Reasoning, Pre-training, Fine-tuning

Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li

Beike (Ke.com)

Generated by grok-3

Background Problem

近年来，大语言模型（LLMs）的推理能力通过提炼（Distillation）技术得到了显著提升，即通过从强大的教师模型中提取推理轨迹（Reasoning Traces）来训练较小的开源模型。然而，不同教师模型提炼出的数据质量和特性差异对学生模型性能的影响尚未被充分研究。本文旨在探索这一问题，通过系统性地从三个顶尖模型（AM-Thinking-v1, Qwen3-235B-A22B, DeepSeek-R1）中提炼推理数据，分析其数据分布特性，并评估其对学生模型在数学、编程等推理任务上的影响，试图回答‘提炼源的选择是否重要’这一关键问题。

Method

本文提出了一种大规模推理数据提炼框架，核心步骤如下：

数据收集与预处理：从公开开源语料库中收集了涵盖数学推理、代码生成、科学推理等多任务的189万查询，并通过去重、过滤高Unicode比例查询、去除URL和表格结构、语义去污染等步骤确保数据质量。
提炼过程：采用增量提炼策略，使用三个教师模型（AM-Thinking-v1, Qwen3-235B-A22B, DeepSeek-R1）对每个查询独立生成推理响应，迭代生成直到响应通过自动验证（验证分数≥0.9）。
自动验证与质量控制：针对不同任务类别设计特定验证机制（如数学推理使用Math-Verify和Qwen2.5-7B-Instruct验证，代码生成使用沙箱测试），并通过困惑度过滤、高频N-gram去除等进一步提升数据质量。
学生模型训练：基于Qwen2.5-32B模型，使用提炼数据进行训练，学习率设为8e-5，最大序列长度32k，训练2个epoch。 批判性思考：提炼和验证过程虽然看似严谨，但验证模型的选择和阈值设定（0.9）缺乏详细依据，可能存在主观性。此外，验证模型与提炼模型可能存在潜在依赖关系，导致验证结果过于乐观，论文未对此进行充分讨论。

Experiment

实验基于从三个教师模型提炼的并行数据集（189万查询），在四个推理基准（AIME2024, AIME2025, MATH500, LiveCodeBench）上评估学生模型性能。实验设置统一，基于Qwen2.5-32B模型训练，生成长度上限为49,152 token，采样温度为0.6。结果显示，AM-Thinking-v1提炼数据的学生模型在所有基准上表现最佳（如AIME2024得分为84.3，AIME2025为72.2，MATH500为98.4，LiveCodeBench为65.9），显著优于其他两个模型。此外，AM-Thinking-v1提炼模型展现出适应性生成长度特性，在较难任务（如AIME）上生成更长响应，在简单任务（如MATH500）上生成较短响应。训练损失曲线也表明AM-Thinking-v1数据提供了更强的学习信号。 批判性分析：实验结果看似令人印象深刻，但基准选择和评估方式可能偏向AM-Thinking-v1数据特性（如token长度分布），缺乏对结果稳健性的进一步验证（如交叉验证或更多基准）。此外，困惑度评估所用模型未详细说明，可能影响数据质量评估的可信度。实验设计虽全面，但未充分探讨提炼数据可能存在的过拟合或污染问题。

Further Thoughts

本文的研究为推理数据提炼提供了一个有价值的视角，但其对AM-Thinking-v1数据优越性的解释仍显表面，未来可以进一步探索数据分布特性（如token长度多样性）与模型推理能力提升之间的因果关系。此外，提炼过程中验证模型的选择和潜在的数据污染问题值得更多关注，可以引入独立第三方验证机制或更多样化的基准测试来增强结果的可信度。另一个有趣的方向是将提炼数据与强化学习技术（如PPO）结合，进一步优化学生模型的推理能力和任务适应性，同时可以参考其他领域（如计算机视觉中的数据增强）的方法，探索推理数据合成或增强的可能性，以减少对教师模型的依赖。