Skip to content
Go back 2505.22312 arXiv logo

Skywork Open Reasoner 1 Technical Report

Published:  at  11:44 AM
88.60 🤔

Skywork-OR1通过提出MAGIC框架,利用多阶段训练和自适应熵控制的强化学习方法,显著提升了长链式推理模型在数学和编码任务上的性能,并在AIME24和AIME25基准上超越了DeepSeek-R1和Qwen3-32B。

Reinforcement Learning, Large Language Model, Reasoning, Long Context, Efficiency

Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou

Skywork AI, Kunlun Inc

Generated by grok-3

Background Problem

近年来,强化学习(RL)在增强大型语言模型(LLMs)的推理能力方面取得了突破性进展,如DeepSeek-R1等模型展示了RL在数学和编码任务上的显著提升。然而,对于已经经过监督微调(SFT)的长链式推理(Long CoT)模型,如何通过RL进一步高效且可扩展地提升其推理能力仍是一个未解难题。现有研究多集中于基础模型的RL优化,而缺乏对长CoT模型的系统性分析和优化策略。Skywork-OR1旨在解决这一问题,通过改进RL训练流程,显著提升长CoT模型在复杂推理任务上的表现,同时探索熵崩溃现象对性能的影响。

Method

Skywork-OR1提出了一种名为MAGIC(Multi-stage Adaptive entropy scheduling for GRPO In Convergence)的训练框架,基于Group Relative Policy Optimization(GRPO)进行改进,具体方法如下:

Experiment

实验基于DeepSeek-R1-Distill模型系列(7B和32B参数规模),在AIME24、AIME25(数学)和LiveCodeBench(编码)基准上进行评估,具体设置如下:

Further Thoughts

Skywork-OR1在长CoT模型的RL优化方面提供了宝贵思路,特别是在熵崩溃的缓解策略上具有启发性。然而,其方法对数据质量和超参数的敏感性提示我们需要在更广泛的场景中验证其鲁棒性。未来研究可以探索自适应熵控制与其他正则化技术的结合,以进一步提高模型的泛化能力。此外,论文中提到的数据过滤策略与最近的一些工作(如数据合成与难度自适应调整)有潜在联系,可以尝试将这些方法整合,构建更动态的数据选择机制,减少对人工质量控制的依赖。最后,熵崩溃现象的研究不仅适用于LLM推理任务,也可能为其他领域的RL算法设计提供启示,如机器人控制或游戏AI,值得跨领域进一步探讨。



Previous Post
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
Next Post
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs