Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
RM-R1: Reward Modeling as Reasoning
本文提出RM-R1,一种通过将奖励建模转化为推理任务并结合蒸馏和强化学习训练的推理奖励模型(REASRMS),在多个基准测试上取得了最先进性能,同时显著提升了可解释性。
-
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
本文提出强化蒸馏(REDI)框架,通过两阶段训练利用正向和负向推理轨迹,显著提升小型语言模型的数学推理性能,Qwen-REDI-1.5B在公开数据上达到1.5B模型的最新水平。
-
Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model
本文通过ComPABench基准评估视觉-语言模型(VLMs)的组合推理能力,发现强化学习(RL)优于监督微调(SFT)在跨任务和分布外泛化中的表现,并提出RL-Ground方法显著提升多模态组合推理性能。
-
Reverse Preference Optimization for Complex Instruction Following
本文提出逆向偏好优化(RPO)方法,通过动态反转指令中未满足的约束消除偏好对噪声,在多轮复杂指令跟随任务上显著优于DPO基线,并在70B模型上超越GPT-4o。
-
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
本文提出PURE框架,通过最小形式信用分配方法利用过程奖励改进大型语言模型的推理能力,实验显示其在数学推理任务上与可验证奖励方法性能相当,且结合少量地面真实信号可进一步提升准确率至53.3%。