本文研究了大语言模型在强化学习后训练中对奖励噪声的鲁棒性,提出推理模式奖励(RPR)策略,通过奖励关键推理短语而非答案正确性显著提升性能,并用RPR校准噪声奖励模型,改善开放式任务表现。
Reinforcement Learning, Large Language Model, Reasoning, Robustness, Pre-training, Instruction Tuning
Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
中国人民大学GSAI, 腾讯大语言模型部门, 澳门大学, 武汉大学计算机科学学院
Generated by grok-3
Background Problem
大语言模型(LLMs)在通过强化学习(RL)进行后训练以提升推理能力时,通常依赖于准确的奖励函数(如数学任务中的规则验证)。然而,在现实世界应用中,奖励往往来自不完美的神经奖励模型,引入了噪声,可能导致错误奖励甚至相反奖励。本研究聚焦于奖励噪声这一实际问题,探索其对LLMs推理能力训练的影响,并试图解决如何在噪声环境下有效训练模型的问题,特别是在开放式任务中奖励难以准确量化时,如何提升模型性能。
Method
本文提出了两种主要方法来应对奖励噪声:
- 奖励噪声下的强化学习(RL):在数学任务中,通过手动翻转奖励函数输出(如将正确答案的奖励从1翻转为0)引入噪声,测试模型对噪声的鲁棒性。噪声翻转概率从0%到50%不等,采用基于问题的翻转方式(即同一问题的所有输出奖励一致翻转),以避免稀疏奖励分布对收敛的影响。训练使用标准的PPO算法,结合GAE方法,超参数包括批大小128、学习率10^{-6}(actor)和5×10^{-6}(critic)。
- 推理模式奖励(RPR):提出了一种新颖策略,仅奖励输出中出现关键推理短语(如’first, I need to’),而不验证最终答案的正确性。RPR通过预先识别40个高频推理短语,每次出现给予固定奖励(r=0.025),总奖励上限为1,并引入重复惩罚以防止模型通过重复短语作弊。此外,RPR被用于校准开放式NLP任务中的噪声奖励模型,通过补偿性奖励机制,当奖励模型输出低于阈值τ(设为0.5)时,基于
标签内的推理文本计算RPR分数并加权(α=0.1)添加到原始奖励中,以减少假阴性奖励的影响。
批判性思考:RPR的核心思想虽然创新,但其实现过于简单,依赖固定短语可能导致模型学习表面模式而非深层推理逻辑,文中提到的’overthinking’问题也表明缺乏对推理质量的约束。此外,RPR校准仅针对假阴性奖励,忽略了假阳性奖励的折扣问题,可能在某些场景下导致奖励过度补偿,影响训练稳定性。
Experiment
实验分为数学任务和开放式NLP任务两部分:
- 数学任务:使用57K混合难度数学问题数据集,基于VeRL框架训练Qwen-2.5-7B模型,评估数据集包括MATH-500、GPQA和AIME 2024。实验1中,奖励翻转概率从0%到50%,结果显示即使40%翻转,模型在MATH-500上的准确率仍从5%提升至72.02%,接近无噪声时的75.85%,仅在50%完全随机时训练崩溃。实验2中,仅使用RPR(不验证答案正确性),模型峰值准确率达70.21%,接近无噪声结果,但后期因’overthinking’(推理链过长)性能下降。
- 开放式NLP任务:使用NVIDIA HelpSteer3数据集(40.5K开放式问题),训练Qwen-2.5-7B模型,奖励模型准确率分别为65%、75%和85%。实验3显示,85%和75%准确率奖励模型性能相近(净胜率仅4%),但65%时性能显著下降,归因于噪声比例非线性增加及奖励分数方差降低。实验4中,RPR校准65%准确率奖励模型后,其与85%模型的性能差距从25%缩小至8%,且校准后即使是85%模型性能也有提升。
- 实验设计评价:数学任务实验设置较为全面,噪声水平逐步增加有助于观察模型鲁棒性,但RPR实验未调优短语数量和奖励值,可能低估或高估其潜力。开放式任务中,奖励模型准确性和方差的影响未完全解耦,实验结果解释存在一定模糊性。此外,评估方式(GPT-4o和人工评估)虽考虑了位置偏见,但开放式任务评估的主观性可能影响结果可靠性。
- 结果与预期匹配性:结果基本符合预期,即模型对噪声有一定鲁棒性,且RPR能有效提升性能,但RPR导致的后期性能下降和校准参数(τ和α)的选择未充分探讨,可能影响方法的实际应用效果。
Further Thoughts
本文的研究为大语言模型的后训练提供了一个新视角,即奖励噪声并非总是性能提升的障碍,而推理模式的强化可能是关键。这一观点与近期关于预训练模型已具备基础推理能力的研究相呼应,例如Yeo等人的工作指出预训练数据中已包含长链推理模式。未来研究可以探索更复杂的RPR设计,如基于隐状态或上下文依赖的推理触发机制,而非简单的短语匹配,以避免表面优化问题。此外,RPR校准奖励模型的方法可能与其他领域(如机器人控制中的奖励塑造)结合,探索噪声环境下如何通过模式奖励引导智能体行为。另一个值得思考的方向是,是否可以通过预训练阶段的特定设计(如增加推理模式多样性)进一步提升模型对噪声的鲁棒性,从而减少后训练的依赖性?这可能对构建更高效、更经济的模型训练流程具有深远影响。