Skip to content
Go back 2504.20834 arXiv logo

Reinforcement Learning for LLM Reasoning Under Memory Constraints

Published:  at  01:19 AM
90.32 👍

本文提出了S-GRPO和T-SPMO两种内存高效、无批评者的强化学习方法,结合LoRA微调,在有限硬件资源下显著提升了大型语言模型在数学推理任务上的性能,其中T-SPMO在需要细粒度信用分配的任务上表现尤为突出。

Reinforcement Learning, Large Language Model, Reasoning, Parameter-Efficient Fine-Tuning, Efficiency

Alan Lee, Harry Tong

University of Michigan

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)通过强化学习(RL)微调在数学和结构化问题解决方面取得了显著进展。然而,标准的RL方法(如PPO和GRPO)对于计算资源有限的研究人员来说并不实用,原因包括:1)它们通常在整个输出轨迹上计算损失;2)它们通常设计用于全模型微调;3)PPO还需要一个批评网络,进一步增加内存需求。此外,监督微调依赖于高质量、昂贵且难以大规模收集的人工标注思维链数据。因此,核心问题是在有限的计算资源(例如,单个40GB GPU)下,能否使用参数高效的更新方法(如LoRA)通过RL微调来提高LLM的推理性能。

Method

本文提出了两种无批评者(critic-free)的RL方法,专门针对内存和计算受限的环境:

Experiment

实验使用Qwen2-1.5B模型,通过LoRA在单个分区A100 40GB GPU上进行微调。LoRA模块插入到最后1/3(SVAMP)或1/4(乘法)注意力层的query和value投影中,秩分别为16(SVAMP)和8(乘法)。优化器为AdamW,学习率为1e-4,正则化系数β=λ=0.01\beta = \lambda = 0.01,使用float32精度。评估任务是SVAMP数据集和自定义的3x3位数字乘法任务。奖励基于最终提取整数的精确匹配准确率。S-GRPO和GRPO基线每prompt采样|G|=8个完成,T-SPMO采样|G|=50个完成。训练步数基于早停或验证集峰值性能确定。

结果:

消融实验:

Further Thoughts

本文的核心贡献在于证明了在资源受限的情况下,通过精心设计的RL算法结合参数高效微调(LoRA)仍然可以有效提升LLM的推理能力。GRPO和S-GRPO在乘法任务上表现不佳,而T-SPMO表现出色,这突出了解释性任务(如数学推理)中细粒度信用分配的重要性。GRPO和S-GRPO基于组内奖励均值和标准差进行优势估计,并将优势应用于采样的(或全部)token上,这种”广播式”的信用分配方式在序列中存在早期错误时,可能会不公平地惩罚后续正确的步骤,导致模型难以学习到完整的、正确的推理链。而T-SPMO通过构建前缀树,计算特定 (前缀, token) 对的优势,即使序列后续出错,模型也能从正确的前缀-token转移中获得正向反馈,从而更好地学习局部正确的推理步骤。这与人类学习复杂任务的过程有相似之处,我们通常会分解任务,并从完成部分子任务中获得反馈。T-SPMO的回放机制,特别是从成功完成中回放,进一步强化了对”好”路径的学习,这可以看作是一种有偏见的经验回放,将学习资源集中在有希望的轨迹上。这对于长序列或需要精确步骤的任务尤其重要。未来的工作可以探索如何将T-SPMO的细粒度信用分配思想应用于更复杂的推理任务,例如结合外部工具使用或更复杂的逻辑推理,以及如何设计更通用的、能够适应不同任务结构的信用分配机制。



Previous Post
Which Attention Heads Matter for In-Context Learning?
Next Post
Improving Reasoning Performance in Large Language Models via Representation Engineering