Skywork-OR1通过提出MAGIC框架,利用多阶段训练和自适应熵控制的强化学习方法,显著提升了长链式推理模型在数学和编码任务上的性能,并在AIME24和AIME25基准上超越了DeepSeek-R1和Qwen3-32B。
Reinforcement Learning, Large Language Model, Reasoning, Long Context, Efficiency
Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou
Skywork AI, Kunlun Inc
Generated by grok-3
Background Problem
近年来,强化学习(RL)在增强大型语言模型(LLMs)的推理能力方面取得了突破性进展,如DeepSeek-R1等模型展示了RL在数学和编码任务上的显著提升。然而,对于已经经过监督微调(SFT)的长链式推理(Long CoT)模型,如何通过RL进一步高效且可扩展地提升其推理能力仍是一个未解难题。现有研究多集中于基础模型的RL优化,而缺乏对长CoT模型的系统性分析和优化策略。Skywork-OR1旨在解决这一问题,通过改进RL训练流程,显著提升长CoT模型在复杂推理任务上的表现,同时探索熵崩溃现象对性能的影响。
Method
Skywork-OR1提出了一种名为MAGIC(Multi-stage Adaptive entropy scheduling for GRPO In Convergence)的训练框架,基于Group Relative Policy Optimization(GRPO)进行改进,具体方法如下:
- 数据收集与过滤:通过严格的预处理和难度估计,构建高质量的数据混合,包含数学和编码问题,确保训练数据的多样性和挑战性;采用离线和在线过滤策略,动态剔除过于简单或困难的问题。
- 训练策略:引入多阶段训练,逐步增加上下文长度(从8K到32K),以提高训练效率;使用高温度采样(τ=1.0)增强探索能力;采用在线策略更新(On-policy Training)以减缓熵崩溃。
- 损失函数优化:设计自适应熵控制机制,通过动态调整熵损失系数,防止过早熵崩溃;移除KL损失项,避免后期训练性能受限。 批判性思考:虽然MAGIC框架在理论上合理,但其对数据质量和超参数(如目标熵和采样温度)的依赖可能限制其在不同数据集或模型上的普适性。此外,移除KL损失可能导致模型偏离参考策略,潜在影响稳定性。
Experiment
实验基于DeepSeek-R1-Distill模型系列(7B和32B参数规模),在AIME24、AIME25(数学)和LiveCodeBench(编码)基准上进行评估,具体设置如下:
- 数据集:包含105K数学问题和13.7K编码问题,经过严格过滤和质量控制。
- 训练配置:采用多阶段训练,逐步增加上下文长度,结合自适应熵控制和无KL损失的策略。
- 结果:Skywork-OR1-32B在AIME24和AIME25上分别达到82.2和73.3,超越DeepSeek-R1和Qwen3-32B,在LiveCodeBench上得分为63.0,表现接近竞争对手;7B模型在同规模模型中也具竞争力。
- 消融研究:验证了数据混合、多阶段训练、高温度采样和自适应熵控制的有效性,同时发现熵崩溃对性能的显著影响。 批判性分析:实验结果在目标基准上表现出色,但缺乏对其他领域或更广泛任务的测试,可能存在过拟合特定数据集的风险。此外,熵控制策略的效果高度依赖超参数选择,实验未充分探讨其鲁棒性。实验设置较为全面,但对计算资源的依赖可能限制其可复现性。
Further Thoughts
Skywork-OR1在长CoT模型的RL优化方面提供了宝贵思路,特别是在熵崩溃的缓解策略上具有启发性。然而,其方法对数据质量和超参数的敏感性提示我们需要在更广泛的场景中验证其鲁棒性。未来研究可以探索自适应熵控制与其他正则化技术的结合,以进一步提高模型的泛化能力。此外,论文中提到的数据过滤策略与最近的一些工作(如数据合成与难度自适应调整)有潜在联系,可以尝试将这些方法整合,构建更动态的数据选择机制,减少对人工质量控制的依赖。最后,熵崩溃现象的研究不仅适用于LLM推理任务,也可能为其他领域的RL算法设计提供启示,如机器人控制或游戏AI,值得跨领域进一步探讨。