Skip to content
Go back 2505.24273 arXiv logo

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

Published:  at  11:29 AM
87.38 🤔

本文通过控制实验研究SFT和RL在增强LLM推理能力中的相互作用,发现短CoT预热对RL有中等贡献,回溯次数需与任务难度匹配,且RL对SFT数据正确性依赖较小而对结构一致性敏感。

Supervised Learning, Reinforcement Learning, Large Language Model, Reasoning, Synthetic Data

Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra

Duke University, Mila - Quebec AI Institute

Generated by grok-3

Background Problem

近年来,大型语言模型(LLM)在数学和逻辑推理任务上的能力显著提升,这得益于监督微调(SFT)和强化学习(RL)等技术的应用。然而,RL如何有效增强推理能力、SFT预热阶段的作用、以及回溯(backtracking)这一行为模式对推理改进的具体贡献,仍未被充分理解。本文旨在解决这些问题,探索SFT和RL之间的动态关系,研究不同SFT数据混合策略对RL训练的影响,并确定回溯的最佳使用程度,以优化LLM在复杂推理任务上的表现。

Method

本文采用控制实验的方法,系统分析SFT和RL在推理任务中的相互作用,核心思想是通过不同的SFT预热策略,研究其对后续RL训练的影响。具体步骤如下:

Experiment

实验在8个推理任务上展开,数据集包括Countdown、Sudoku、Arc 1D等,实验设置分为多个阶段:

Further Thoughts

本文的研究为优化LLM推理训练提供了一些实用见解,但也引发了更深层次的思考。首先,RL对SFT数据结构而非内容的依赖,可能指向模型在训练中更倾向于学习模式化的搜索策略,而非具体知识,这与预训练阶段的模式学习有何关联?是否可以通过设计更结构化的SFT数据(如特定搜索算法的线性化轨迹)进一步提升RL效果?其次,回溯次数与任务难度的正相关关系提示我们,是否可以通过自适应策略动态调整回溯次数,而非依赖静态经验值?此外,本文未探讨模型规模对结果的影响,例如更大规模模型是否对回溯或正确性的依赖会有所不同,这可能与现有文献中关于规模法则(Scaling Laws)的讨论相关。最后,RL对内部一致性的敏感性启发我们思考,如何在数据质量不高的情况下,通过数据清洗或结构化增强来缓解这一问题?这可能对实际应用中数据稀缺或噪声较大的场景具有重要意义。



Previous Post
Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods
Next Post
Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective