Tag: Reward Modeling
All the articles with the tag "Reward Modeling".
-
RM-R1: Reward Modeling as Reasoning
本文提出RM-R1,一种通过将奖励建模转化为推理任务并结合蒸馏和强化学习训练的推理奖励模型(REASRMS),在多个基准测试上取得了最先进性能,同时显著提升了可解释性。
-
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
本文提出R1-Reward,通过StableReinforce算法将强化学习应用于多模态奖励模型训练,显著提升了性能并在多个基准测试中超越现有最优模型,同时展示了优异的数据效率和测试时扩展性。