Skip to content
Go back 2505.18917 arXiv logo

Behavior Injection: Preparing Language Models for Reinforcement Learning

Published:  at  11:45 AM
86.57 🤔

本文提出BRIDGE方法,通过在SFT阶段注入探索和利用行为增强大型语言模型的RL准备度,并在数学与逻辑推理任务上显著提升RFT性能。

Reinforcement Learning, Supervised Learning, Reasoning, Data Augmentation, Large Language Model

Zhepeng Cen, Yihang Yao, William Han, Zuxin Liu, Ding Zhao

Carnegie Mellon University, Salesforce AI Research

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂多步推理任务(如数学竞赛和现实世界中的智能体场景)中仍面临挑战,尽管通过链式思维(CoT)提示可以生成中间推理步骤,但性能提升有限。强化学习微调(RFT)作为一种有效的后训练方法,能够通过奖励驱动优化模型推理能力,然而不同模型对RFT的响应差异巨大:部分模型性能显著提升,而其他模型则停滞甚至下降。本文旨在探究这种差异的根本原因,并提出一种数据驱动的策略,通过在监督微调(SFT)阶段增强模型的RL准备度(RL-ready),从而提高RFT的效率和最终性能。

Method

本文提出了一种名为BRIDGE(BehavioR Injection Data auGmEntation)的任务无关数据增强方法,旨在通过在SFT阶段注入探索(exploration)和利用(exploitation)行为,使模型更好地适应后续RFT。具体步骤如下:

Experiment

实验在两个推理基准数据集上进行:iGSM(小学数学问题)和PromptBench(算术与逻辑推理),使用Qwen-2.5和Llama-3.2系列模型作为基础模型。实验设置包括SFT和RFT两个阶段,比较了BRIDGE与三种基线方法(Vanilla、PP-Aug、RC-Aug)的性能。数据集难度通过操作数量和推理深度控制,并测试了分布内(In-Dist)和分布外(OOD)性能。

Further Thoughts

BRIDGE方法在提升RFT性能方面展现了潜力,但其局限性值得深入探讨。首先,行为注入的概念虽然源于RL中的探索与利用,但在自然语言处理或多模态任务中可能需要重新定义行为类型,例如在文本生成任务中,探索行为可能表现为生成多样化表达,而非DAG中的节点尝试。其次,作者提到的每步影响分析工具(如per-step influence)具有启发性,可用于更广泛的数据筛选和行为发现,例如结合数据影响分析优化联邦学习中的数据选择策略。此外,与其他数据增强方法(如自生成数据或对抗样本)结合,可能会进一步提升模型的RL准备度,但需警惕潜在风险,如注入不安全行为可能导致模型输出有害内容,这与作者提到的社会影响担忧相呼应。未来研究应扩展到更多领域(如智能体交互或多模态推理),并探讨行为注入对模型长期学习动态的影响。



Previous Post
LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
Next Post
Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster