Skip to content
Go back 2504.15275 arXiv logo

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Published:  at  11:31 AM
85.18 🤔

本文提出PURE框架,通过最小形式信用分配方法利用过程奖励改进大型语言模型的推理能力,实验显示其在数学推理任务上与可验证奖励方法性能相当,且结合少量地面真实信号可进一步提升准确率至53.3%。

Reinforcement Learning, Large Language Model, Reasoning, Fine-tuning, Efficiency

Jie Cheng, Ruixi Qiao, Lijun Li, Chao Guo, Junle Wang, Gang Xiong, Yisheng Lv, Fei-Yue Wang

State Key Laboratory of Multimodal Artificial Intelligence Systems, CASIA, School of Artificial Intelligence, University of Chinese Academy of Sciences, Shanghai Artificial Intelligence Laboratory, Tencent

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中的强化微调(RFT)显示出发展高级问题解决能力的潜力,但面临奖励稀疏导致学习效率低下的问题。过程奖励模型(PRMs)通过为每一步提供密集反馈,在测试时扩展中已被证明有效,但其在训练时的应用受限于奖励黑客问题,即模型会优化高奖励步骤而忽略整体目标。本文旨在解决PRM在RFT中导致奖励黑客的核心原因,并提出有效方法以提升LLM的推理能力。

Method

本文提出了PURE(Process sUpervised Reinforcement lEarning),其核心创新是最小形式信用分配(min-form credit assignment),通过将价值函数定义为未来奖励的最小值,而非传统求和形式(summation-form)的累积折扣奖励,以限制价值函数范围并更合理地分配优势。具体步骤如下:

批判性思考:虽然最小形式信用分配在理论上限制了价值函数范围以避免奖励黑客,但其可能导致模型对某些关键步骤的优化不足,过于关注最差步骤而忽略整体推理链的改进。此外,奖励转换的温度参数T的选择可能对结果有较大影响,文中未充分探讨其鲁棒性。

Experiment

实验基于三个基础模型(Qwen2.5-7B, Qwen2.5-Math-7B, Qwen2.5-Math-1.5B)进行,采用三种奖励配置:仅过程奖励(PURE-PRM)、仅可验证奖励(PURE-VR)和两者结合(PURE-PRM+VR)。数据集包括来自MATH数据集的约8000个问题,部分问题附带地面真实答案。实验设置了多种基准测试(包括AIME24, AMC23等5个数学竞赛数据集),并与三种最先进的RFT方法进行比较。

Further Thoughts

本文提出的最小形式信用分配为解决PRM在强化微调中的奖励黑客问题提供了一个新颖视角,但其局限性在于未能完全消除奖励黑客现象,尤其是在长期训练中。我认为未来的研究可以探索生成式PRM的可能性,通过利用LLM的语言生成能力来评估推理步骤的质量,而不仅仅是判别式地打分。此外,伪正样本导致训练崩溃的问题提示我们需要在数据集构建和奖励模型训练中引入更严格的质量控制机制,例如通过多轮人工验证或引入多样化的训练数据来增强PRM对重复模式等异常行为的识别能力。另一个值得探索的方向是跨领域泛化性,本文实验局限于数学推理任务,而在自然语言推理或多模态推理任务中,最小形式信用分配是否仍然有效尚待验证。最后,我联想到近期一些关于奖励模型与策略模型迭代训练的研究(如某些RLHF工作),或许可以通过类似的迭代机制,让PRM不断适应LLM输出分布的变化,从而进一步减少奖励黑客问题。



Previous Post
SeMe: Training-Free Language Model Merging via Semantic Alignment
Next Post
Zebra-Llama: Towards Extremely Efficient Hybrid Models