本文通过控制实验研究SFT和RL在增强LLM推理能力中的相互作用,发现短CoT预热对RL有中等贡献,回溯次数需与任务难度匹配,且RL对SFT数据正确性依赖较小而对结构一致性敏感。
Supervised Learning, Reinforcement Learning, Large Language Model, Reasoning, Synthetic Data
Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
Duke University, Mila - Quebec AI Institute
Generated by grok-3
Background Problem
近年来,大型语言模型(LLM)在数学和逻辑推理任务上的能力显著提升,这得益于监督微调(SFT)和强化学习(RL)等技术的应用。然而,RL如何有效增强推理能力、SFT预热阶段的作用、以及回溯(backtracking)这一行为模式对推理改进的具体贡献,仍未被充分理解。本文旨在解决这些问题,探索SFT和RL之间的动态关系,研究不同SFT数据混合策略对RL训练的影响,并确定回溯的最佳使用程度,以优化LLM在复杂推理任务上的表现。
Method
本文采用控制实验的方法,系统分析SFT和RL在推理任务中的相互作用,核心思想是通过不同的SFT预热策略,研究其对后续RL训练的影响。具体步骤如下:
- SFT预热设置:设计了五种SFT预热方式,包括无SFT(冷启动RL)、自采样SFT、蒸馏SFT、合成回溯SFT和打乱SFT,旨在对比不同数据混合对RL的影响。
- 任务选择与数据构建:选择了8个推理任务(如Sudoku、Countdown等),并为其中3个任务构建了合成数据集,通过深度优先搜索(DFS)和启发式搜索生成不同回溯次数的演示数据,以控制实验变量。
- 训练与评估:基于Qwen2.5模型家族(主要是3B-Instruct版本),采用规则奖励机制(格式正确性占0.1分,答案准确性占0.9分),通过RL训练(如PPO算法)评估不同SFT预热策略的效果。 关键点在于,作者试图分离结构(例如推理模式、回溯频率)和内容(例如轨迹正确性)的影响,以揭示RL训练对SFT数据的依赖模式。然而,方法中对回溯次数的优化缺乏理论依据,更多依赖实验调整,这可能限制了结论的普适性。
Experiment
实验在8个推理任务上展开,数据集包括Countdown、Sudoku、Arc 1D等,实验设置分为多个阶段:
- 冷启动RL与自采样SFT对比:结果显示,冷启动RL已能提升推理能力,而短链式思维(CoT)数据的SFT预热进一步带来中等性能提升,尤其在除Sudoku和Countdown外的任务上。
- 正确性影响实验:使用自采样和蒸馏数据(来自QwQ-32B),对比正确与错误轨迹的SFT预热效果,发现RL训练后性能趋于一致,表明RL对内容正确性的依赖较小。
- 回溯次数与任务难度:通过合成数据集控制回溯次数,发现任务难度与所需回溯次数正相关,例如Sudoku(高难度)需要5次回溯,Countdown(中等难度)需要1次,而Arc 1D(较易)无需回溯即可达到最佳性能。
- 打乱SFT实验:发现RL对SFT数据的内部一致性非常敏感,打乱数据后训练效果极差。 总体来看,实验设置较为全面,任务选择覆盖了不同难度和搜索策略,合成数据集的构建有助于控制变量。然而,结果与预期基本一致,未揭示超出直觉的深刻洞见,且对回溯次数的优化缺乏系统性方法,更多依赖试错。此外,实验未充分探讨模型规模或任务类型的潜在影响,可能限制结论的泛化能力。
Further Thoughts
本文的研究为优化LLM推理训练提供了一些实用见解,但也引发了更深层次的思考。首先,RL对SFT数据结构而非内容的依赖,可能指向模型在训练中更倾向于学习模式化的搜索策略,而非具体知识,这与预训练阶段的模式学习有何关联?是否可以通过设计更结构化的SFT数据(如特定搜索算法的线性化轨迹)进一步提升RL效果?其次,回溯次数与任务难度的正相关关系提示我们,是否可以通过自适应策略动态调整回溯次数,而非依赖静态经验值?此外,本文未探讨模型规模对结果的影响,例如更大规模模型是否对回溯或正确性的依赖会有所不同,这可能与现有文献中关于规模法则(Scaling Laws)的讨论相关。最后,RL对内部一致性的敏感性启发我们思考,如何在数据质量不高的情况下,通过数据清洗或结构化增强来缓解这一问题?这可能对实际应用中数据稀缺或噪声较大的场景具有重要意义。