Skip to content
Go back 2505.13697 arXiv logo

RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs

Published:  at  11:16 AM
89.06 🤔

本文通过理论和实验分析,揭示了当前RL(如GRPO)在LLM后训练中的MDP结构假设使其退化为过滤迭代监督微调,并指出响应长度增加源于奖励分配偏差,而非推理能力提升。

Reinforcement Learning, Large Language Model, Fine-tuning, Reasoning, Supervised Learning

Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

Arizona State University

Generated by grok-3

Background Problem

近年来,大型语言模型(LLM)的后训练方法中,强化学习(RL)特别是基于GRPO(Group Relative Policy Optimization)的技术因其在推理能力提升方面的潜力而受到广泛关注。然而,这种方法将语言建模问题建模为马尔可夫决策过程(MDP)时,引入了特定的结构假设(如状态为生成的令牌序列、奖励仅在终止状态分配且均匀分布),这些假设可能导致RL方法的退化。本文旨在揭示这些结构假设如何使RL方法在本质上等同于监督微调(SFT),并探讨其对模型行为(如生成更长响应)的影响,解决当前对RL在LLM后训练中作用的误解。

Method

本文主要通过理论分析和实证研究来质疑RL在LLM后训练中的应用,具体方法如下:

Experiment

实验基于两个基准数据集(GSM8K和Countdown)和两种规模的Qwen-2.5模型(0.5B和1.5B),对比了GRPO及其变体与多种过滤迭代监督微调(Filtered-ISFT)方法的效果:

Further Thoughts

本文对RL在LLM后训练中的批判性分析为我们重新思考MDP建模提供了重要启示。作者提到的2-LLM formulation(即双模型交互的MDP框架)可能是一个值得深入探索的方向,因为它可能通过引入更复杂的状态和奖励机制,恢复RL在策略优化中的独特作用。此外,响应长度增加的问题让我联想到生成模型中常见的‘冗余生成’现象,是否可以通过引入动态奖励机制(如基于中间状态的‘return-to-go’估计)来缓解这一偏差?与此同时,本文的分析也提示我们在评估LLM推理能力时,应更加关注生成内容的质量而非长度,避免被表象误导。另一个有趣的联系是,本文的Filtered-ISFT方法与自监督学习中的正负样本对比学习有异曲同工之妙,是否可以借鉴对比学习的损失设计(如InfoNCE)来进一步优化LLM的后训练过程?这些方向都值得未来研究。



Previous Post
Model Merging in Pre-training of Large Language Models
Next Post
Self-Data Distillation for Recovering Quality in Pruned Large Language Models