Skip to content
Go back 2505.22653 arXiv logo

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

Published:  at  11:15 AM
85.56 🤔

本文研究了大语言模型在强化学习后训练中对奖励噪声的鲁棒性,提出推理模式奖励(RPR)策略,通过奖励关键推理短语而非答案正确性显著提升性能,并用RPR校准噪声奖励模型,改善开放式任务表现。

Reinforcement Learning, Large Language Model, Reasoning, Robustness, Pre-training, Instruction Tuning

Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan

中国人民大学GSAI, 腾讯大语言模型部门, 澳门大学, 武汉大学计算机科学学院

Generated by grok-3

Background Problem

大语言模型(LLMs)在通过强化学习(RL)进行后训练以提升推理能力时,通常依赖于准确的奖励函数(如数学任务中的规则验证)。然而,在现实世界应用中,奖励往往来自不完美的神经奖励模型,引入了噪声,可能导致错误奖励甚至相反奖励。本研究聚焦于奖励噪声这一实际问题,探索其对LLMs推理能力训练的影响,并试图解决如何在噪声环境下有效训练模型的问题,特别是在开放式任务中奖励难以准确量化时,如何提升模型性能。

Method

本文提出了两种主要方法来应对奖励噪声:

批判性思考:RPR的核心思想虽然创新,但其实现过于简单,依赖固定短语可能导致模型学习表面模式而非深层推理逻辑,文中提到的’overthinking’问题也表明缺乏对推理质量的约束。此外,RPR校准仅针对假阴性奖励,忽略了假阳性奖励的折扣问题,可能在某些场景下导致奖励过度补偿,影响训练稳定性。

Experiment

实验分为数学任务和开放式NLP任务两部分:

Further Thoughts

本文的研究为大语言模型的后训练提供了一个新视角,即奖励噪声并非总是性能提升的障碍,而推理模式的强化可能是关键。这一观点与近期关于预训练模型已具备基础推理能力的研究相呼应,例如Yeo等人的工作指出预训练数据中已包含长链推理模式。未来研究可以探索更复杂的RPR设计,如基于隐状态或上下文依赖的推理触发机制,而非简单的短语匹配,以避免表面优化问题。此外,RPR校准奖励模型的方法可能与其他领域(如机器人控制中的奖励塑造)结合,探索噪声环境下如何通过模式奖励引导智能体行为。另一个值得思考的方向是,是否可以通过预训练阶段的特定设计(如增加推理模式多样性)进一步提升模型对噪声的鲁棒性,从而减少后训练的依赖性?这可能对构建更高效、更经济的模型训练流程具有深远影响。



Previous Post
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
Next Post
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability