本文通过理论和实验分析,揭示了当前RL(如GRPO)在LLM后训练中的MDP结构假设使其退化为过滤迭代监督微调,并指出响应长度增加源于奖励分配偏差,而非推理能力提升。
Reinforcement Learning, Large Language Model, Fine-tuning, Reasoning, Supervised Learning
Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati
Arizona State University
Generated by grok-3
Background Problem
近年来,大型语言模型(LLM)的后训练方法中,强化学习(RL)特别是基于GRPO(Group Relative Policy Optimization)的技术因其在推理能力提升方面的潜力而受到广泛关注。然而,这种方法将语言建模问题建模为马尔可夫决策过程(MDP)时,引入了特定的结构假设(如状态为生成的令牌序列、奖励仅在终止状态分配且均匀分布),这些假设可能导致RL方法的退化。本文旨在揭示这些结构假设如何使RL方法在本质上等同于监督微调(SFT),并探讨其对模型行为(如生成更长响应)的影响,解决当前对RL在LLM后训练中作用的误解。
Method
本文主要通过理论分析和实证研究来质疑RL在LLM后训练中的应用,具体方法如下:
- 理论分析:作者从MDP的结构假设入手,指出状态定义为令牌序列和奖励均匀分配的假设使得MDP退化为一种简化的形式。通过对GRPO目标函数的分解(见公式(2)至(8)),证明其在正向和负向响应的加权更新下,与过滤迭代监督微调(Filtered-ISFT)等价,意味着RL并未带来真正的策略优化,而是依赖于预训练模型的潜在能力。
- 响应长度偏差分析:作者进一步分析了GRPO中优势值(advantage)均匀分配和按长度缩放的机制,指出这导致了对错误响应中较长序列的较低惩罚,从而间接激励模型生成更长的输出(见第5节)。
- 批判性视角:虽然作者承认RL在其他MDP建模下可能有用,但对当前流行的LLM-MDP框架提出质疑,认为其结构假设削弱了RL的独特价值。我认为这一分析有一定道理,但可能过于强调退化问题,而未充分探讨如何改进MDP建模以恢复RL的优势。
Experiment
实验基于两个基准数据集(GSM8K和Countdown)和两种规模的Qwen-2.5模型(0.5B和1.5B),对比了GRPO及其变体与多种过滤迭代监督微调(Filtered-ISFT)方法的效果:
- 数据集与设置:GSM8K包含8.5K个数学问题,Countdown包含9K个数字组合问题,实验设置统一(如批大小64,温度0.6),确保公平比较。
- 结果:在GSM8K上,所有方法性能接近,Qwen-2.5-0.5B准确率从0.6%提升至65%,1.5B从22.7%提升至85%,Filtered-ISFT(正负样本结合)与GRPO表现几乎一致;在Countdown上,结果波动较大,GRPO在1.5B模型上略优,但整体仍与Filtered-ISFT接近。
- 响应长度:实验显示GRPO训练中响应长度先减后增,作者归因于优势值均匀分配和长度缩放的偏差,而非推理能力提升。
- 评价:实验设计合理,涵盖了不同任务和模型规模,但Countdown结果的波动性表明方法对任务难度的适应性可能有限。此外,实验未探索不同MDP建模下的RL效果,限制了结论的普适性。我认为实验结果支持了作者关于RL退化的论点,但对响应长度增加的解释可能过于单一,未考虑其他潜在因素(如模型探索行为)。
Further Thoughts
本文对RL在LLM后训练中的批判性分析为我们重新思考MDP建模提供了重要启示。作者提到的2-LLM formulation(即双模型交互的MDP框架)可能是一个值得深入探索的方向,因为它可能通过引入更复杂的状态和奖励机制,恢复RL在策略优化中的独特作用。此外,响应长度增加的问题让我联想到生成模型中常见的‘冗余生成’现象,是否可以通过引入动态奖励机制(如基于中间状态的‘return-to-go’估计)来缓解这一偏差?与此同时,本文的分析也提示我们在评估LLM推理能力时,应更加关注生成内容的质量而非长度,避免被表象误导。另一个有趣的联系是,本文的Filtered-ISFT方法与自监督学习中的正负样本对比学习有异曲同工之妙,是否可以借鉴对比学习的损失设计(如InfoNCE)来进一步优化LLM的后训练过程?这些方向都值得未来研究。