本文提出BRIDGE方法,通过在SFT阶段注入探索和利用行为增强大型语言模型的RL准备度,并在数学与逻辑推理任务上显著提升RFT性能。
Reinforcement Learning, Supervised Learning, Reasoning, Data Augmentation, Large Language Model
Zhepeng Cen, Yihang Yao, William Han, Zuxin Liu, Ding Zhao
Carnegie Mellon University, Salesforce AI Research
Generated by grok-3
Background Problem
大型语言模型(LLMs)在复杂多步推理任务(如数学竞赛和现实世界中的智能体场景)中仍面临挑战,尽管通过链式思维(CoT)提示可以生成中间推理步骤,但性能提升有限。强化学习微调(RFT)作为一种有效的后训练方法,能够通过奖励驱动优化模型推理能力,然而不同模型对RFT的响应差异巨大:部分模型性能显著提升,而其他模型则停滞甚至下降。本文旨在探究这种差异的根本原因,并提出一种数据驱动的策略,通过在监督微调(SFT)阶段增强模型的RL准备度(RL-ready),从而提高RFT的效率和最终性能。
Method
本文提出了一种名为BRIDGE(BehavioR Injection Data auGmEntation)的任务无关数据增强方法,旨在通过在SFT阶段注入探索(exploration)和利用(exploitation)行为,使模型更好地适应后续RFT。具体步骤如下:
- 核心思想:通过分析RL目标的每步影响,识别出采样准确率分布(rollout accuracy)和数据共影响系数(data co-influence)是影响RFT性能增长的关键因素。基于此,作者提出在SFT阶段通过数据增强调整模型特性,而非直接修改RL算法。
- 实现方式:采用有向无环图(DAG)表示推理任务,将任务分解为节点和依赖关系。在此基础上,设计两种行为注入:探索行为(如尝试解决未解锁节点并反思)和利用行为(如聚合信息解决可解节点或计算子目标)。通过算法将这些行为以一定概率注入到原始CoT数据集中,形成增强数据集,随后进行SFT和RFT。
- 关键问题与批判:虽然理论分析合理,但DAG表示是否适用于所有任务类型存疑,尤其是在非结构化或非推理任务中可能难以应用。此外,行为注入的具体设计(如概率和类型)缺乏充分的理论支持,可能会导致模型过度拟合某些特定行为模式,影响泛化能力。
Experiment
实验在两个推理基准数据集上进行:iGSM(小学数学问题)和PromptBench(算术与逻辑推理),使用Qwen-2.5和Llama-3.2系列模型作为基础模型。实验设置包括SFT和RFT两个阶段,比较了BRIDGE与三种基线方法(Vanilla、PP-Aug、RC-Aug)的性能。数据集难度通过操作数量和推理深度控制,并测试了分布内(In-Dist)和分布外(OOD)性能。
- 结果:在iGSM任务中,BRIDGE在RFT后性能提升显著(如Qwen-1.5B模型在In-Dist上的提升为46.6%,远高于Vanilla的6.0%);在PromptBench任务中,尽管BRIDGE在SFT阶段准确率较低,但RFT后性能提升同样领先(如Qwen-1.5B模型In-Dist提升53.0%)。
- 分析与批判:实验结果表明BRIDGE有效提升了RFT性能,尤其在中等准确率样本比例和每步影响(per-step influence)上优于基线。然而,实验规模较小(数据量仅2000-5000),任务领域局限(仅数学和逻辑推理),可能无法反映更广泛应用场景的效果。此外,基线方法的数据增强量更大,但性能提升不如BRIDGE,这可能暗示数据质量而非方法本身的差异。作者未充分探讨行为注入对模型长期泛化能力的潜在负面影响,如是否会导致模型过度依赖特定行为模式。
Further Thoughts
BRIDGE方法在提升RFT性能方面展现了潜力,但其局限性值得深入探讨。首先,行为注入的概念虽然源于RL中的探索与利用,但在自然语言处理或多模态任务中可能需要重新定义行为类型,例如在文本生成任务中,探索行为可能表现为生成多样化表达,而非DAG中的节点尝试。其次,作者提到的每步影响分析工具(如per-step influence)具有启发性,可用于更广泛的数据筛选和行为发现,例如结合数据影响分析优化联邦学习中的数据选择策略。此外,与其他数据增强方法(如自生成数据或对抗样本)结合,可能会进一步提升模型的RL准备度,但需警惕潜在风险,如注入不安全行为可能导致模型输出有害内容,这与作者提到的社会影响担忧相呼应。未来研究应扩展到更多领域(如智能体交互或多模态推理),并探讨行为注入对模型长期学习动态的影响。