本文提出了一种奖励增强数据集方法,通过对偏好对进行重新标记使大型语言模型条件化于奖励值学习响应质量全谱,显著提升了直接偏好优化(DPO)的性能并缓解了其遗忘高质被拒响应和无差别学习低质选中响应的局限性。
Large Language Model, Alignment, Reinforcement Learning, Data Augmentation, Instruction Tuning, Robustness
Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang
Northwestern University, ByteDance
Generated by grok-3
Background Problem
大型语言模型(LLM)的偏好对齐技术,如直接偏好优化(DPO),在提升模型遵循人类指令和意图的能力方面取得了显著进展。然而,现有直接对齐算法主要关注相对偏好,忽视了响应的质量差异及其差距,导致以下关键问题:1)高质但被拒绝的响应被不必要地‘遗忘’(unlearning),可能降低模型性能;2)低质但被选中的响应被无差别学习,无法区分质量高低;3)对数据中稀疏的最优响应(即最高奖励响应)泛化能力不足。本文旨在通过引入奖励条件化策略,解决这些问题,使模型能够学习响应质量的全谱,并更好地泛化到最优响应。
Method
本文提出了一种简单而有效的奖励增强数据集构建方法,通过对偏好对进行重新标记,使LLM能够条件化于奖励值学习响应质量的全谱。具体步骤如下:
- 核心思想:通过优化奖励条件化策略π(y | x, g),使模型根据目标奖励值g生成响应,从而区分不同质量的响应,避免高质被拒响应的遗忘和低质选中响应的无差别学习。
- 数据重新标记:定义目标条件化奖励函数R(x, y, g) = −(g − r(x, y))^2,其中r(x, y)为评判模型给出的奖励值。对于每个偏好对(x, y_w, y_l),基于选中响应y_w和被拒响应y_l的奖励值r_w和r_l,生成两个新的偏好对:当g = r_w时,y_w优于y_l;当g = r_l时,y_l优于y_w。这样将原始数据集D^N扩展为大小为2N的奖励增强数据集。
- 实现方式:在训练时,通过系统提示(如‘生成分数为g的响应’)将目标奖励值g融入模型输入;在推理时,条件化于最高奖励值g^* = r_max以生成最优响应。
- 理论支持:论文提供了理论保证(Theorem 4.1),表明在温和假设下,基于奖励增强数据的DPO优化策略能够全局收敛到最优策略,次优性以N^{-1/2}的速率衰减(N为增强数据集大小)。
Experiment
实验主要基于UltraFeedback数据集,使用GPT-4作为评判模型提供的奖励值(范围1-10),对多个开源LLM(如Mistral-7B-Instruct、Qwen2-7B-Instruct、Llama-3.1-8B-Instruct等)进行微调,并在指令跟随基准(如AlpacaEval 2.0、MT-Bench、Arena-Hard-Auto)和学术多选问答基准(如GSM8K、TruthfulQA等)上评估性能。
- 实验设置:通过奖励增强数据对DPO进行微调,比较基线模型、原始UltraFeedback上的DPO和奖励增强数据上的DPO的表现。还包括消融研究,验证方法对数据效用的提升、数据大小的影响以及对遗忘问题的缓解。
- 结果分析:在指令跟随基准上,奖励增强数据显著提升了DPO性能,例如在AlpacaEval 2.0上,Qwen2-7B-Instruct的胜率从19.35%(DPO UF)提升至27.58%(DPO RA)。在学术基准上,平均准确率也有所提高,如Gemma-2-9B-It从59.22%提升至59.75%。
- 实验合理性与局限:实验设置覆盖了多种模型和基准,较为全面,但主要依赖UltraFeedback数据集和GPT-4奖励值,可能存在数据集特异性和评判模型偏差的风险。消融研究表明,性能提升不仅来自数据量增加(半量增强数据仍优于原始数据),且有效缓解了高质被拒响应的遗忘问题。然而,实验未充分探讨奖励值噪声对结果的影响,也未在更多样化的数据集上验证方法的普适性。
- 与预期匹配度:结果与论文预期一致,奖励增强数据确实提升了DPO的表现并缓解了其局限性,但提升幅度在不同模型和任务间存在差异,部分基准(如Arena-Hard-Auto)显示直接对齐可能降低基线性能,提示方法并非在所有场景下都完全优越。
Further Thoughts
本文提出的奖励增强数据集方法为解决直接偏好对齐的局限性提供了一个简单而有效的思路,但仍有值得深入探讨的方面。首先,方法高度依赖评判模型的奖励值质量,若奖励值存在噪声或偏差(如GPT-4评分可能受限于其自身偏见),可能会引入新的对齐问题,未来研究可以探索如何在奖励值不可靠的情况下稳健地应用此方法,例如结合多评判模型的共识或引入噪声鲁棒性机制。其次,奖励增强是否会过度拟合到特定奖励分布,限制模型对未见奖励目标的泛化能力,也是一个潜在风险,可通过跨数据集验证或动态奖励目标设计来进一步研究。此外,本方法与条件化微调(如SteerLM、DPA)的结合展示了多属性奖励条件化的潜力,这启发我们思考是否可以将奖励增强扩展到更广泛的AI对齐任务中,例如在多模态模型或多智能体系统中,通过条件化于多维目标(如安全性、效率、公平性)实现更全面的对齐。最后,联想到近期关于RLHF和DPO在长上下文任务中表现的研究,奖励增强方法是否能通过条件化于上下文相关奖励值提升长上下文推理能力,也是一个值得探索的方向。