本文通过探索离线强化学习方法(LD-DPO),在DeepDistill-32B模型上实现了平均3.3%的推理性能提升,尤其在Arena-Hard基准上提升10.1%,并强调了推理长度与语义丰富性平衡的重要性。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Instruction Tuning
Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Yunjie Ji, Han Zhao, Xiangang Li
未知机构
Generated by grok-3
Background Problem
近年来,大型语言模型(LLMs)在复杂推理任务(如数学推理和代码生成)中取得了显著进展,尤其是在多步推理任务中表现出色。然而,当前学术界和开源社区主要依赖在线强化学习(Online RL)方法(如PPO和GRPO)来提升模型推理能力,这些方法计算成本高、训练流程复杂,难以复制。相比之下,离线强化学习(Offline RL)利用预收集的数据集,具有更高的计算效率和更简单的实现方式,但其在提升LLM推理能力方面的应用仍未被充分探索。因此,本研究旨在解决在线RL的高成本问题,探索更经济高效的离线RL方法在增强LLM推理能力方面的潜力,重点解决传统离线RL方法(如DPO)对输出长度的敏感性问题。
Method
本研究采用离线强化学习(Offline RL)方法,具体使用Direct Preference Optimization (DPO)及其改进版本Length-Desensitized DPO (LD-DPO)来提升大型语言模型的推理能力。
- 核心思想:DPO通过直接优化模型以适应人类偏好数据,避免了传统RL中复杂的奖励模型和采样过程,其损失函数为: 其中,和分别表示偏好和非偏好响应。然而,DPO对输出长度敏感,倾向于生成冗长输出。
- LD-DPO改进:LD-DPO通过引入长度去敏感化超参数,重新参数化似然函数,减少对输出长度的偏见。其损失函数为: 通过调整,LD-DPO在较长输出中更关注语义内容而非单纯长度。
- 数据处理:研究通过多轮蒸馏和验证,从DeepSeek-R1的输出中选择高质量的查询和响应对,覆盖数学推理、代码生成、科学推理等多个领域,确保数据质量和一致性。
- 训练流程:基于DeepDistill-32B模型,使用AdamW优化器,初始学习率为,训练1个epoch,并在训练过程中评估模型性能。
Experiment
实验基于DeepDistill-32B模型,在五个代表性推理基准数据集上进行:AIME2024(数学推理)、GPQA-Diamond(科学推理)、LiveCodeBench(代码生成)、IFEval(指令跟随)和Arena-Hard(通用推理)。
- 实验设置:采用最大序列长度为32k的DeepDistill-32B模型,训练使用全局批次大小为32,初始学习率为,并设置LD-DPO的超参数和。性能每训练步数的10%评估一次。
- 结果:LD-DPO模型(DeepDistill-32B-lddpo)在平均性能上提升了3.3%,从基线的71.6%提高到74.9%。具体而言,在Arena-Hard上提升最显著,达到10.1%(从78.9%到89.0%);在LiveCodeBench和IFEval上分别提升2.9%和1.7%;在AIME2024上提升1.7%;而在GPQA-Diamond上无提升。相比之下,标准DPO在IFEval任务上表现不佳(59.7%),远低于基线(72.8%),显示出其不稳定性。
- 分析:实验结果表明LD-DPO通过长度去敏感化机制有效减少了冗余输出,尤其在需要长推理的任务(如Arena-Hard)中表现优异。然而,GPQA-Diamond上的无提升可能反映了方法在某些科学推理任务中的局限性。此外,输出长度分析显示,DPO生成的平均长度显著增加(7839.0 tokens vs 基线6273.2 tokens),但未带来一致的性能提升,而LD-DPO在适度增加长度(7444.5 tokens)的同时实现了更稳定的改进。
- 评价:实验设置覆盖了多种推理任务,设计较为全面,但GPQA-Diamond上的结果和DPO在IFEval上的表现表明方法并非普适有效,可能需要针对特定任务进一步调整超参数或数据处理策略。
Further Thoughts
本文提出的LD-DPO方法在离线强化学习领域提供了一个有价值的视角,尤其是在控制输出长度与语义质量平衡方面的探索值得进一步研究。然而,我认为其对超参数的选择和任务特定性的讨论不够深入,未来可以探索自适应调整值的方法,以适应不同任务的需求。此外,离线RL与在线RL的结合可能是一个有趣的方向,例如是否可以在离线RL预训练后使用在线RL进一步优化模型性能?这或许能弥补离线RL在某些任务(如GPQA-Diamond)上的不足。另一个值得思考的点是,离线RL的数据依赖性较强,本文的数据处理流程虽然复杂,但可能仍存在选择偏差,未来可以考虑引入更多样化的数据来源或合成数据,以提升模型的泛化能力。最后,本研究与近期的一些工作(如Tulu3项目中的长度归一化DPO)有一定的相关性,可以进一步比较这些方法的优劣,探索是否存在互补性。