本文提出R1-Reward,通过StableReinforce算法将强化学习应用于多模态奖励模型训练,显著提升了性能并在多个基准测试中超越现有最优模型,同时展示了优异的数据效率和测试时扩展性。
Reinforcement Learning, Multimodal Systems, Reward Modeling, Reasoning, Efficiency
Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang
CASIA, THU, KuaiShou, NJU
Generated by grok-3
Background Problem
多模态奖励模型(MRM)在提升多模态大语言模型(MLLM)性能中扮演着关键角色,尤其是在训练、推理和评估阶段为模型提供奖励信号、数据过滤和最优响应选择。然而,现有MRM研究主要集中于模型结构和训练数据的改进,缺乏对长期推理能力的研究以及如何通过强化学习(RL)激活这种能力。本文探索了RL在奖励建模中的应用,试图解决传统RL算法(如PPO和Reinforce++)在训练过程中的不稳定性问题,并提升MRM在多模态任务中的表现。
Method
本文提出了StableReinforce算法,将奖励建模问题转化为基于规则的RL任务,核心思想是通过改进传统RL方法以稳定训练并提升性能。具体方法包括:
- Pre-Clip策略:在计算概率比之前对对数概率差进行裁剪,防止数值溢出和训练不稳定,公式为:
- Advantage Filter:应用3-sigma规则过滤异常优势值,限制标准化优势值在[-3, 3]范围内,避免极端值对训练的干扰。
- 一致性奖励(Consistency Reward):引入外部MLLM(如Qwen2.5-VL-7B-Instruct)作为裁判,评估推理过程与最终结果的一致性,确保模型推理逻辑与输出一致,最终奖励设计为:
- 训练策略:首先使用GPT-4o生成200K偏好数据(R1-Reward-200K)进行监督微调(SFT),随后筛选高难度样本进行RL训练,以逐步提升模型能力。
Experiment
实验基于QwenVL-2.5-7B-Instruct模型,在4×H800 GPU上进行,SFT阶段训练1个epoch(约8小时),RL阶段训练5个epoch(约12小时)。数据集包括从MM-RLHF等公开数据集采样的200K偏好数据,评估基准包括VL Reward-Bench、Multimodal Reward Bench和MM-RLHF-Reward Bench,指标涵盖整体准确率(Overall Accuracy)、宏平均准确率(Macro Average Accuracy)等。
结果显示,R1-Reward在所有基准测试中显著优于现有最优模型(SOTA),例如在VL Reward-Bench上整体准确率提升8.4%(71.92% vs. 65.80%),在Multimodal Reward Bench上提升14.3%(82.2% vs. 71.9%)。测试时扩展性(Test-Time Scaling)实验表明,通过多次采样和多数投票策略(如Voting@15),性能进一步提升,例如在MM-RLHF-Reward Bench上准确率达86.47%。
实验设置较为全面,涵盖了多种基线模型(包括开源和闭源模型)以及不同任务维度(如推理、幻觉、安全性)。然而,实验缺乏对数据集规模和难度分布的敏感性分析,且未充分讨论多次采样的计算成本是否实际可行。此外,虽然数据效率较高(200K数据优于IXC-2.5-Reward的1M数据),但依赖GPT-4o生成数据可能引入偏差,影响泛化能力。总的来说,结果与预期一致,但仍需更多验证以确认方法的鲁棒性。
Further Thoughts
R1-Reward的研究为强化学习在多模态奖励建模中的应用开辟了新方向,但其依赖外部模型(如GPT-4o)生成训练数据的方式可能限制了方法的普适性,未来可以探索自生成数据或无监督数据增强策略来减少这种依赖。此外,测试时扩展性通过多次采样提升性能的策略虽然有效,但计算成本较高,是否能在实际应用中落地仍需进一步研究,例如结合高效采样算法或模型剪枝技术降低开销。另一个值得思考的点是,StableReinforce算法中的一致性奖励设计是否会过度约束模型的探索能力,可能导致模型在某些复杂任务中过于保守,未来可以尝试动态调整一致性奖励的权重以平衡探索与稳定性。最后,本文与近期在语言模型领域中关于RL训练稳定性的研究(如DAPO和TOPR)有一定关联,可以进一步探索这些方法是否能迁移到多模态领域,以形成更通用的RL训练框架。