Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs

本文提出了一种动态自适应的混合训练框架 SASR，通过基于梯度范数和 KL 散度的动态调整机制结合 SFT 和 RL，在数学推理和逻辑推理任务上显著提升了大语言模型的性能，优于传统 SFT、RL 和静态混合方法。

Supervised Learning, Reinforcement Learning, Large Language Model, Reasoning, Instruction Tuning

Jack Chen, Fazhong Liu, Naruto Liu, Yuhan Luo, Erqu Qin, Harry Zheng, Tian Dong, Haojin Zhu, Yan Meng, Xiao Wang

Shanghai Goku Technologies Limited, Shanghai Jiao Tong University, Shanghai AllMind Artificial Intelligence Technology Co., Ltd.

Generated by grok-3

Background Problem

大语言模型（LLM）在数学推理和逻辑问题解决方面表现出色，但当前的训练范式（如监督微调 SFT 和强化学习 RL）在任务特定场景下存在挑战：SFT 容易过拟合有限的高质量数据，而 RL 可能导致模式崩塌和奖励欺骗等问题。已有混合训练方法尝试结合 SFT 和 RL，但静态切换方案在不同任务上的泛化能力较差，且对数据质量依赖较高。针对这些问题，本文提出了一种动态自适应的混合训练框架 SASR，旨在通过模仿人类推理培养过程（课程学习-测验机制），在训练过程中动态平衡 SFT 和 RL，从而提升模型在任务特定场景下的推理能力和泛化能力。

Method

SASR（Step-wise Adaptive Integration of SFT and RL）是一种动态自适应的混合训练框架，其核心思想是通过两个阶段的训练动态平衡监督微调（SFT）和强化学习（RL），以提升大语言模型的推理能力。具体步骤如下：

预热阶段（Warm-up Phase）：初始阶段使用 SFT，通过小规模的高质量数据集（包含问题和思维链 CoT 标注）进行训练，建立模型的基本推理能力。优化目标是最小化负对数似然损失（NLL），即 $\mathcal{L}_{\text{SFT}}(\boldsymbol{\theta}) = -\mathbb{E}_{(\boldsymbol{x}, \boldsymbol{e}) \sim \mathcal{D}} \left[ \sum_{t=1}^{L} \log \pi_{\boldsymbol{\theta}}(a_t | s_t) \right]$ 。
混合训练阶段（Hybrid Training Phase）：在预热阶段后，SASR 结合 SFT 和基于组相对策略优化（GRPO）的 RL 进行训练。GRPO 通过对每组输出进行高低优势分组（基于相对优势估计），并结合 KL 正则化防止过度偏离，优化目标为 $\mathcal{L}_{\text{GRPO}}(\theta) = \frac{1}{G} \sum_{i=1}^{G} \left[ \min \left( \frac{\pi_{\theta}}{\pi_{\theta_{\text{old}}}} \hat{A}_{i,t}, \text{clip} \left( \frac{\pi_{\theta}}{\pi_{\theta_{\text{old}}}}, 1 \pm \epsilon \right) \hat{A}_{i,t} \right) - \beta D_{KL}[\pi_{\theta} || \pi_{\text{ref}}] \right]$ 。
动态调整机制：SASR 通过状态函数 $I(t)$ 基于梯度范数和当前策略与数据分布的 KL 散度动态调整 SFT 和 GRPO 的比例。当模型偏离数据分布较大时，增加 SFT 权重以巩固基础推理能力；当偏离较小时，增加 GRPO 权重以鼓励多路径探索。整体损失函数为 $\mathcal{L}(\theta) = \frac{1}{S} \sum_{s=1}^{S} \left[ (1 - I(t)) \cdot \mathcal{L}_{\text{SFT}}(\theta) + I(t) \cdot \mathcal{L}_{\text{GRPO}}(\theta) \right]$ 。

批判性思考：虽然 SASR 的动态调整机制在理论上具有吸引力，但其依赖于梯度范数与 KL 散度的简单比例关系（ $\|\nabla_{\theta}\mathcal{L}_{\text{SFT}}\| \propto D_{\text{KL}}(\pi_{\theta} \|\pi_{\text{data}})$ ）可能过于简化，未充分考虑训练过程中的复杂动态，例如梯度消失或爆炸问题。此外，动态调整的计算开销（每次训练步都需要计算梯度范数和更新比例）可能在实际应用中成为瓶颈，尤其是在大规模模型训练中。

Experiment

实验在三个代表性数据集上进行：GSM8K（小学数学问题）、MATH（数学竞赛难题）和 KK（逻辑推理基准），分别针对数学推理和逻辑推理任务。使用的基线模型包括 DeepSeek-R1-Distill-Qwen-1.5B 和 Qwen2.5-Instruct 系列（0.5B 和 1.5B）。训练设置上，GSM8K 和 MATH 数据集的 CoT 标注通过大模型蒸馏生成，以避免过拟合标准答案。实验对比了 SFT、GRPO、静态混合训练（Static Hybrid）、规则切换（SSR）、余弦调度（SSR_cosine）和 SASR 的性能。

结果分析：

在 GSM8K 上，SASR 将准确率从基线的 63.8% 提升至 80.3%，接近 GPT-4o 的水平（81.8%），优于 SFT（75.2%）、GRPO（55.7%）和静态混合训练（81.4%）。
在 MATH 上，SASR 准确率为 23.0%，略高于 SFT（21.2%）和静态混合训练（16.0%），但整体提升有限。
在 KK 上，SASR 平均准确率为 42.0%，显著优于 SFT（28.0%）、GRPO（9.0%）和静态混合训练（33.0%），并在某些难度级别上接近 DeepSeek-V3 的表现。

实验设计评价：实验设置覆盖了多种任务和模型规模，数据集选择也具有代表性。然而，实验存在以下问题：1）CoT 数据的生成依赖于大模型蒸馏，可能引入数据质量偏差，未充分讨论蒸馏模型选择对结果的影响；2）基线模型的训练设置（如静态混合训练的每轮切换策略）可能未完全优化，导致对比不够公平；3）实验结果虽然显示 SASR 整体优于其他方法，但在 MATH 数据集上的提升幅度较小，表明方法在某些复杂任务上的泛化能力有限；4）未提供计算开销的详细分析，动态调整机制的实际成本难以评估。总体而言，实验结果部分支持了 SASR 的有效性，但未能完全证明其在所有场景下的优越性。

Further Thoughts

SASR 的动态自适应训练机制提供了一个有趣的视角，即通过实时监控模型训练状态来调整训练范式，这与近年来在持续学习（Continual Learning）和元学习（Meta-Learning）领域的研究趋势相呼应，例如基于任务难度的自适应学习率调整。然而，SASR 的方法目前仅限于 SFT 和 GRPO 的结合，未来可以探索与其他 RL 方法（如 PPO 或 DAPO）的集成，以验证其框架的通用性。此外，动态调整机制的计算开销问题值得进一步研究，或许可以借鉴联邦学习（Federated Learning）中的高效梯度聚合技术来降低成本。另一个值得思考的方向是 SASR 在多模态任务中的应用潜力，例如结合视觉基础模型（Vision Foundation Model）和语言模型的训练，是否也能通过类似的自适应机制平衡不同模态的学习需求？最后，论文中提到的‘灾难性遗忘-停滞权衡’问题在长期训练中可能更为显著，未来研究可以引入记忆回放（Replay Buffer）机制，进一步缓解这一问题。