Skip to content
Go back 2505.12929 arXiv logo

Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

Published:  at  11:22 AM
87.53 🤔

本文揭示了强化学习中低概率token过度主导模型更新的问题,并提出Advantage Reweighting和Lopti两种方法,通过平衡token更新权重显著提升GRPO训练的大语言模型性能,最高在K&K Logic Puzzle任务上提升46.2%。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency

Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han, Zhiyuan He, Dongsheng Li, Yunjian Xu

The Chinese University of Hong Kong, Microsoft Research Asia

Generated by grok-3

Background Problem

大语言模型(LLMs)的推理能力通过强化学习(RL)在后训练阶段得到了显著提升,尤其是在Group Relative Policy Optimization (GRPO)等创新算法的推动下。然而,RL训练中存在一个关键问题:低概率token由于梯度幅值较大,过度主导模型更新,导致高概率token的更新被抑制,影响模型性能的进一步提升。本文从梯度视角出发,揭示了这一更新偏差问题,并试图通过平衡不同概率token的更新权重来提高RL训练效率和模型推理能力。

Method

本文提出了两种方法来缓解低概率token在RL训练中的过度主导问题:

Experiment

实验主要在两个数据集上进行验证:

Further Thoughts

本文提出的低概率token主导问题为RL训练提供了一个新的优化视角,值得进一步探索。例如,是否可以通过动态调整概率阈值或引入自适应加权机制来减少对超参数的依赖?此外,论文中提到的语言学分析(图5)揭示了token概率分布与推理行为之间的关联,这启发我们是否可以通过分析生成文本的语义特征,进一步优化RL奖励函数设计,特别是在长链推理(Chain-of-Thought)任务中。另一个值得思考的方向是,Lopti方法引入的额外计算成本在资源受限场景下可能成为瓶颈,是否可以结合联邦学习或分布式训练来缓解这一问题?最后,本文的方法主要针对GRPO算法,未来可以探索其在其他RL算法(如DPO或PPO)中的适用性,或者与其他优化技术(如熵正则化)结合,以实现更全面的性能提升。



Previous Post
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Next Post
Latent Principle Discovery for Language Model Self-Improvement