Skip to content
Go back 2505.02142 arXiv logo

Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study

Published:  at  08:41 AM
86.49 🤔

本文通过探索离线强化学习方法(LD-DPO),在DeepDistill-32B模型上实现了平均3.3%的推理性能提升,尤其在Arena-Hard基准上提升10.1%,并强调了推理长度与语义丰富性平衡的重要性。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Instruction Tuning

Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Yunjie Ji, Han Zhao, Xiangang Li

未知机构

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)在复杂推理任务(如数学推理和代码生成)中取得了显著进展,尤其是在多步推理任务中表现出色。然而,当前学术界和开源社区主要依赖在线强化学习(Online RL)方法(如PPO和GRPO)来提升模型推理能力,这些方法计算成本高、训练流程复杂,难以复制。相比之下,离线强化学习(Offline RL)利用预收集的数据集,具有更高的计算效率和更简单的实现方式,但其在提升LLM推理能力方面的应用仍未被充分探索。因此,本研究旨在解决在线RL的高成本问题,探索更经济高效的离线RL方法在增强LLM推理能力方面的潜力,重点解决传统离线RL方法(如DPO)对输出长度的敏感性问题。

Method

本研究采用离线强化学习(Offline RL)方法,具体使用Direct Preference Optimization (DPO)及其改进版本Length-Desensitized DPO (LD-DPO)来提升大型语言模型的推理能力。

Experiment

实验基于DeepDistill-32B模型,在五个代表性推理基准数据集上进行:AIME2024(数学推理)、GPQA-Diamond(科学推理)、LiveCodeBench(代码生成)、IFEval(指令跟随)和Arena-Hard(通用推理)。

Further Thoughts

本文提出的LD-DPO方法在离线强化学习领域提供了一个有价值的视角,尤其是在控制输出长度与语义质量平衡方面的探索值得进一步研究。然而,我认为其对超参数α\alpha的选择和任务特定性的讨论不够深入,未来可以探索自适应调整α\alpha值的方法,以适应不同任务的需求。此外,离线RL与在线RL的结合可能是一个有趣的方向,例如是否可以在离线RL预训练后使用在线RL进一步优化模型性能?这或许能弥补离线RL在某些任务(如GPQA-Diamond)上的不足。另一个值得思考的点是,离线RL的数据依赖性较强,本文的数据处理流程虽然复杂,但可能仍存在选择偏差,未来可以考虑引入更多样化的数据来源或合成数据,以提升模型的泛化能力。最后,本研究与近期的一些工作(如Tulu3项目中的长度归一化DPO)有一定的相关性,可以进一步比较这些方法的优劣,探索是否存在互补性。



Previous Post
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
Next Post
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute