Skip to content
Go back 2505.14216 arXiv logo

Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning

Published:  at  11:24 AM
89.27 🤔

本文通过实验和理论分析揭示了RLVR提升大型语言模型准确性但不提升能力的原因在于其偏向优化简单问题,而蒸馏只有在引入新知识时才能提升能力,否则表现与RLVR类似。

Reinforcement Learning, Supervised Learning, Large Language Model, Reasoning, Accuracy, Capability

Minwu Kim, Anubhav Shrestha, Safal Shrestha, Aadim Nepal, Keith Ross

New York University Abu Dhabi

Generated by grok-3

Background Problem

近年来,大型语言模型(LLM)在数学和编程等复杂领域取得了显著进展,尤其是在推理能力上的提升。然而,研究发现,使用强化学习与可验证奖励(RLVR)进行微调可以显著提高模型的准确性(即单次尝试生成正确答案的概率),但无法提升模型的能力(即正确答案是否在其输出分布中)。相比之下,从强大推理模型进行蒸馏(distillation)通常能同时提升准确性和能力。本文旨在深入探讨这一现象背后的原因,分析RLVR和蒸馏如何影响模型的推理行为,特别是在不同难度问题上的表现差异,以及蒸馏中推理模式和领域知识的各自作用。

Method

本文采用了理论分析与实验验证相结合的方法,核心思路如下:

批判性思考:虽然方法设计有一定创新性,但作者对RLVR算法(如GRPO)的具体实现细节缺乏深入讨论,例如参数更新如何具体偏向简单问题,这可能影响结论的解释力。此外,仅转移推理模式的蒸馏实验设计虽然试图隔离变量,但如何确保完全不引入新知识仍存疑问,可能存在隐性知识转移。

Experiment

实验基于两个较小规模的模型(Qwen2.5-1.5B-Math和Qwen2.5-3B),数据集包括MATH训练集(7500题)和测试集(500题)以及AIME25数据集,领域限定为数学。实验设置如下:

批判性评价:实验设计较为细致,特别是在难度分 bin 和转移矩阵分析上,能直观展示RLVR和蒸馏对不同难度问题的不同影响。然而,实验规模受限(仅1.5B和3B模型,单一数学领域),可能无法推广到更大模型或多领域场景。此外,定性分析结果与文献不符,但作者未深入探讨原因,仅提出需要更好指标,缺乏进一步验证。实验结果基本符合预期,但对“新知识”定义和隔离方法的严谨性存疑,可能影响蒸馏实验结论的可信度。

Further Thoughts

本文的研究为理解RLVR和蒸馏对LLM推理行为的塑造提供了有价值的视角,但也引发了更深层次的问题值得探索。首先,RLVR对简单问题的偏向是否可以通过改进奖励机制或算法设计来缓解?例如,是否可以设计一种动态奖励机制,根据问题难度调整更新权重,从而平衡对难易问题的关注?其次,作者提到的响应质量问题提示了一个重要方向:当前的表面指标(如长度或关键词)不足以评估推理质量,未来是否可以结合神经科学或认知科学的理论,开发更贴近人类推理过程的评估框架?

此外,蒸馏中“新知识”的引入如何量化仍是一个开放问题。是否可以通过知识图谱或其他形式明确区分推理模式和领域知识的贡献?这不仅对蒸馏研究有意义,也可能为知识增强的LLM训练提供新思路。最后,本文的结论基于数学领域和小规模模型,是否适用于编程、常识推理等其他领域,或更大规模模型(如百亿参数级别),值得进一步验证。结合近期关于LLM scaling laws的研究,或许可以探索模型规模与RLVR/蒸馏效果之间的关系,为更高效的推理模型训练提供指导。



Previous Post
GCN-Based Throughput-Oriented Handover Management in Dense 5G Vehicular Networks
Next Post
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training