本文通过实验和理论分析揭示了RLVR提升大型语言模型准确性但不提升能力的原因在于其偏向优化简单问题,而蒸馏只有在引入新知识时才能提升能力,否则表现与RLVR类似。
Reinforcement Learning, Supervised Learning, Large Language Model, Reasoning, Accuracy, Capability
Minwu Kim, Anubhav Shrestha, Safal Shrestha, Aadim Nepal, Keith Ross
New York University Abu Dhabi
Generated by grok-3
Background Problem
近年来,大型语言模型(LLM)在数学和编程等复杂领域取得了显著进展,尤其是在推理能力上的提升。然而,研究发现,使用强化学习与可验证奖励(RLVR)进行微调可以显著提高模型的准确性(即单次尝试生成正确答案的概率),但无法提升模型的能力(即正确答案是否在其输出分布中)。相比之下,从强大推理模型进行蒸馏(distillation)通常能同时提升准确性和能力。本文旨在深入探讨这一现象背后的原因,分析RLVR和蒸馏如何影响模型的推理行为,特别是在不同难度问题上的表现差异,以及蒸馏中推理模式和领域知识的各自作用。
Method
本文采用了理论分析与实验验证相结合的方法,核心思路如下:
- 准确性与能力的定义:作者正式定义了准确性(accuracy)为模型在单次尝试中生成正确答案的平均概率,能力(capability)为在多次独立尝试中至少一次生成正确答案的概率(pass@k),并设计了基于有限采样的估计方法(k=256)。
- RLVR分析:通过对问题按难度分 bin(基于基础模型的成功率),分析RLVR训练前后成功率的变化,揭示其对较简单问题优化而忽视最难问题的倾向。作者进一步通过熵分析和GRPO算法的机制解释了这种“牺牲难题”的现象。
- 蒸馏分析:作者区分了蒸馏中推理模式和领域知识的作用,设计了两种蒸馏实验:一种是引入新知识的蒸馏(如DeepSeek模型),另一种是仅转移推理模式的蒸馏(reasoning-only模型),通过对比两者的准确性和能力变化,分析各自的影响。
- 响应质量分析:通过自蒸馏实验和定性分析(响应长度和反思关键词频率),探讨RLVR是否仅提升成功概率,还是生成了之前分布中不存在的高质量响应。
批判性思考:虽然方法设计有一定创新性,但作者对RLVR算法(如GRPO)的具体实现细节缺乏深入讨论,例如参数更新如何具体偏向简单问题,这可能影响结论的解释力。此外,仅转移推理模式的蒸馏实验设计虽然试图隔离变量,但如何确保完全不引入新知识仍存疑问,可能存在隐性知识转移。
Experiment
实验基于两个较小规模的模型(Qwen2.5-1.5B-Math和Qwen2.5-3B),数据集包括MATH训练集(7500题)和测试集(500题)以及AIME25数据集,领域限定为数学。实验设置如下:
- RLVR实验:对比基础模型和RLVR训练后模型的准确性和能力(pass@k),并按问题难度分 bin 分析成功率变化和转移矩阵,验证RLVR对简单问题的优化和对难题的忽视。结果显示,RLVR在简单问题上成功率提升显著(如[65-128] bin 提升36.6%),但在最难问题上几乎无改进(如[0] bin 仅提升0.5%)。
- 自蒸馏实验:通过自蒸馏(使用模型自身正确响应)和RLVR响应蒸馏到基础模型,验证RLVR生成的高质量响应。结果表明,自蒸馏在测试集上提升有限(仅0.8%),而RLVR响应蒸馏提升显著(11.6%),表明RLVR生成了新质量的响应。
- 蒸馏实验:对比三种模型(基础模型、DeepSeek蒸馏模型、仅推理模式蒸馏模型)的能力(pass@k)。结果显示,DeepSeek模型在所有难度上均有提升(pass@256从56.7%提升至70.0%),而仅推理模式模型仅在低k值时提升,与RLVR类似,最终能力无提升。
- 定性分析:分析响应长度和反思关键词频率,发现RLVR训练后响应长度无显著变化,且反思关键词减少,与文献中大模型表现不一致。
批判性评价:实验设计较为细致,特别是在难度分 bin 和转移矩阵分析上,能直观展示RLVR和蒸馏对不同难度问题的不同影响。然而,实验规模受限(仅1.5B和3B模型,单一数学领域),可能无法推广到更大模型或多领域场景。此外,定性分析结果与文献不符,但作者未深入探讨原因,仅提出需要更好指标,缺乏进一步验证。实验结果基本符合预期,但对“新知识”定义和隔离方法的严谨性存疑,可能影响蒸馏实验结论的可信度。
Further Thoughts
本文的研究为理解RLVR和蒸馏对LLM推理行为的塑造提供了有价值的视角,但也引发了更深层次的问题值得探索。首先,RLVR对简单问题的偏向是否可以通过改进奖励机制或算法设计来缓解?例如,是否可以设计一种动态奖励机制,根据问题难度调整更新权重,从而平衡对难易问题的关注?其次,作者提到的响应质量问题提示了一个重要方向:当前的表面指标(如长度或关键词)不足以评估推理质量,未来是否可以结合神经科学或认知科学的理论,开发更贴近人类推理过程的评估框架?
此外,蒸馏中“新知识”的引入如何量化仍是一个开放问题。是否可以通过知识图谱或其他形式明确区分推理模式和领域知识的贡献?这不仅对蒸馏研究有意义,也可能为知识增强的LLM训练提供新思路。最后,本文的结论基于数学领域和小规模模型,是否适用于编程、常识推理等其他领域,或更大规模模型(如百亿参数级别),值得进一步验证。结合近期关于LLM scaling laws的研究,或许可以探索模型规模与RLVR/蒸馏效果之间的关系,为更高效的推理模型训练提供指导。