Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study

本文通过探索离线强化学习方法（LD-DPO），在DeepDistill-32B模型上实现了平均3.3%的推理性能提升，尤其在Arena-Hard基准上提升10.1%，并强调了推理长度与语义丰富性平衡的重要性。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Instruction Tuning

Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Yunjie Ji, Han Zhao, Xiangang Li

未知机构

Generated by grok-3

Background Problem

近年来，大型语言模型（LLMs）在复杂推理任务（如数学推理和代码生成）中取得了显著进展，尤其是在多步推理任务中表现出色。然而，当前学术界和开源社区主要依赖在线强化学习（Online RL）方法（如PPO和GRPO）来提升模型推理能力，这些方法计算成本高、训练流程复杂，难以复制。相比之下，离线强化学习（Offline RL）利用预收集的数据集，具有更高的计算效率和更简单的实现方式，但其在提升LLM推理能力方面的应用仍未被充分探索。因此，本研究旨在解决在线RL的高成本问题，探索更经济高效的离线RL方法在增强LLM推理能力方面的潜力，重点解决传统离线RL方法（如DPO）对输出长度的敏感性问题。

Method

本研究采用离线强化学习（Offline RL）方法，具体使用Direct Preference Optimization (DPO)及其改进版本Length-Desensitized DPO (LD-DPO)来提升大型语言模型的推理能力。

核心思想：DPO通过直接优化模型以适应人类偏好数据，避免了传统RL中复杂的奖励模型和采样过程，其损失函数为： $L_{DPO}(\pi_{\theta}; \pi_{ref}) = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$ 其中， $y_w$ 和 $y_l$ 分别表示偏好和非偏好响应。然而，DPO对输出长度敏感，倾向于生成冗长输出。
LD-DPO改进：LD-DPO通过引入长度去敏感化超参数 $\alpha \in [0, 1]$ ，重新参数化似然函数，减少对输出长度的偏见。其损失函数为： $L_{LD-DPO}(\pi_{\theta}; \pi_{ref}) = -\mathbb{E}_{\langle x, y_w, y_l \rangle \sim D} \left[ \log \sigma \left( \beta \log \frac{\hat{\pi}_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\hat{\pi}_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$ 通过调整 $\alpha$ ，LD-DPO在较长输出中更关注语义内容而非单纯长度。
数据处理：研究通过多轮蒸馏和验证，从DeepSeek-R1的输出中选择高质量的查询和响应对，覆盖数学推理、代码生成、科学推理等多个领域，确保数据质量和一致性。
训练流程：基于DeepDistill-32B模型，使用AdamW优化器，初始学习率为 $5 \times 10^{-7}$ ，训练1个epoch，并在训练过程中评估模型性能。

Experiment

实验基于DeepDistill-32B模型，在五个代表性推理基准数据集上进行：AIME2024（数学推理）、GPQA-Diamond（科学推理）、LiveCodeBench（代码生成）、IFEval（指令跟随）和Arena-Hard（通用推理）。

实验设置：采用最大序列长度为32k的DeepDistill-32B模型，训练使用全局批次大小为32，初始学习率为 $5 \times 10^{-7}$ ，并设置LD-DPO的超参数 $\beta=0.1$ 和 $\alpha=0.3$ 。性能每训练步数的10%评估一次。
结果：LD-DPO模型（DeepDistill-32B-lddpo）在平均性能上提升了3.3%，从基线的71.6%提高到74.9%。具体而言，在Arena-Hard上提升最显著，达到10.1%（从78.9%到89.0%）；在LiveCodeBench和IFEval上分别提升2.9%和1.7%；在AIME2024上提升1.7%；而在GPQA-Diamond上无提升。相比之下，标准DPO在IFEval任务上表现不佳（59.7%），远低于基线（72.8%），显示出其不稳定性。
分析：实验结果表明LD-DPO通过长度去敏感化机制有效减少了冗余输出，尤其在需要长推理的任务（如Arena-Hard）中表现优异。然而，GPQA-Diamond上的无提升可能反映了方法在某些科学推理任务中的局限性。此外，输出长度分析显示，DPO生成的平均长度显著增加（7839.0 tokens vs 基线6273.2 tokens），但未带来一致的性能提升，而LD-DPO在适度增加长度（7444.5 tokens）的同时实现了更稳定的改进。
评价：实验设置覆盖了多种推理任务，设计较为全面，但GPQA-Diamond上的结果和DPO在IFEval上的表现表明方法并非普适有效，可能需要针对特定任务进一步调整超参数或数据处理策略。

Further Thoughts

本文提出的LD-DPO方法在离线强化学习领域提供了一个有价值的视角，尤其是在控制输出长度与语义质量平衡方面的探索值得进一步研究。然而，我认为其对超参数 $\alpha$ 的选择和任务特定性的讨论不够深入，未来可以探索自适应调整 $\alpha$ 值的方法，以适应不同任务的需求。此外，离线RL与在线RL的结合可能是一个有趣的方向，例如是否可以在离线RL预训练后使用在线RL进一步优化模型性能？这或许能弥补离线RL在某些任务（如GPQA-Diamond）上的不足。另一个值得思考的点是，离线RL的数据依赖性较强，本文的数据处理流程虽然复杂，但可能仍存在选择偏差，未来可以考虑引入更多样化的数据来源或合成数据，以提升模型的泛化能力。最后，本研究与近期的一些工作（如Tulu3项目中的长度归一化DPO）有一定的相关性，可以进一步比较这些方法的优劣，探索是否存在互补性。