本文揭示了强化学习中低概率token过度主导模型更新的问题,并提出Advantage Reweighting和Lopti两种方法,通过平衡token更新权重显著提升GRPO训练的大语言模型性能,最高在K&K Logic Puzzle任务上提升46.2%。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency
Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han, Zhiyuan He, Dongsheng Li, Yunjian Xu
The Chinese University of Hong Kong, Microsoft Research Asia
Generated by grok-3
Background Problem
大语言模型(LLMs)的推理能力通过强化学习(RL)在后训练阶段得到了显著提升,尤其是在Group Relative Policy Optimization (GRPO)等创新算法的推动下。然而,RL训练中存在一个关键问题:低概率token由于梯度幅值较大,过度主导模型更新,导致高概率token的更新被抑制,影响模型性能的进一步提升。本文从梯度视角出发,揭示了这一更新偏差问题,并试图通过平衡不同概率token的更新权重来提高RL训练效率和模型推理能力。
Method
本文提出了两种方法来缓解低概率token在RL训练中的过度主导问题:
- Advantage Reweighting:通过对token的优势值(advantage)进行基于概率的重新加权,降低低概率token的更新权重,具体公式为 ,其中 是超参数。这一方法计算成本极低,旨在增强高概率token的更新效果。
- Low-Probability Token Isolation (Lopti):通过预设概率阈值 将token分为低概率和高概率两组,先更新低概率token,再更新高概率token,利用低概率token更新对高概率token分布的间接影响来优化更新方向。此方法基于梯度相互影响的直觉,但增加了计算成本。 批判性思考:虽然两种方法在理论上有一定依据,但Advantage Reweighting的线性加权方式可能过于简单,未考虑token概率分布的非线性特性;Lopti的更新顺序依赖直觉,缺乏对顺序反转后性能下降的深入理论解释。此外,超参数(如 和 )的选择对性能影响较大,论文未提供自适应调整的机制,可能限制方法的普适性。
Experiment
实验主要在两个数据集上进行验证:
- K&K Logic Puzzle数据集:使用Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct-1M作为基础模型,结合GRPO训练。结果显示,Advantage Reweighting和Lopti分别提升了性能35.9%和38.5%,联合使用时提升达46.2%。实验还通过语言学分析(图5)间接验证了方法对推理行为的改进。
- 数学相关数据集:包括DeepScaleR (DSR)和Open Reasoner-Zero (ORZ),在Qwen2.5-7B上测试。结果显示两种方法均有改进(平均提升约1-2%),但联合使用未带来额外收益。 实验设计分析:实验设置较为合理,选择了具有挑战性的数据集(如K&K Logic Puzzle)和多种基准(如Olympiad Bench, AIME24)进行评估,覆盖了推理和数学任务。然而,实验缺乏对其他RL算法(如PPO)的广泛验证,仅在附录中提及REINFORCE++的结果,限制了方法的通用性证明。此外,超参数敏感性分析(图6)显示方法对 和 的选择较为敏感,但未提供跨任务的鲁棒性测试。结果虽然符合预期,但提升幅度在数学数据集上较小,可能表明方法对任务类型的适应性有限。
Further Thoughts
本文提出的低概率token主导问题为RL训练提供了一个新的优化视角,值得进一步探索。例如,是否可以通过动态调整概率阈值或引入自适应加权机制来减少对超参数的依赖?此外,论文中提到的语言学分析(图5)揭示了token概率分布与推理行为之间的关联,这启发我们是否可以通过分析生成文本的语义特征,进一步优化RL奖励函数设计,特别是在长链推理(Chain-of-Thought)任务中。另一个值得思考的方向是,Lopti方法引入的额外计算成本在资源受限场景下可能成为瓶颈,是否可以结合联邦学习或分布式训练来缓解这一问题?最后,本文的方法主要针对GRPO算法,未来可以探索其在其他RL算法(如DPO或PPO)中的适用性,或者与其他优化技术(如熵正则化)结合,以实现更全面的性能提升。