Skip to content
Go back 2410.08067 arXiv logo

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

Published:  at  12:16 AM
70.15 🤔

本文提出了一种奖励增强数据集方法,通过对偏好对进行重新标记使大型语言模型条件化于奖励值学习响应质量全谱,显著提升了直接偏好优化(DPO)的性能并缓解了其遗忘高质被拒响应和无差别学习低质选中响应的局限性。

Large Language Model, Alignment, Reinforcement Learning, Data Augmentation, Instruction Tuning, Robustness

Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

Northwestern University, ByteDance

Generated by grok-3

Background Problem

大型语言模型(LLM)的偏好对齐技术,如直接偏好优化(DPO),在提升模型遵循人类指令和意图的能力方面取得了显著进展。然而,现有直接对齐算法主要关注相对偏好,忽视了响应的质量差异及其差距,导致以下关键问题:1)高质但被拒绝的响应被不必要地‘遗忘’(unlearning),可能降低模型性能;2)低质但被选中的响应被无差别学习,无法区分质量高低;3)对数据中稀疏的最优响应(即最高奖励响应)泛化能力不足。本文旨在通过引入奖励条件化策略,解决这些问题,使模型能够学习响应质量的全谱,并更好地泛化到最优响应。

Method

本文提出了一种简单而有效的奖励增强数据集构建方法,通过对偏好对进行重新标记,使LLM能够条件化于奖励值学习响应质量的全谱。具体步骤如下:

Experiment

实验主要基于UltraFeedback数据集,使用GPT-4作为评判模型提供的奖励值(范围1-10),对多个开源LLM(如Mistral-7B-Instruct、Qwen2-7B-Instruct、Llama-3.1-8B-Instruct等)进行微调,并在指令跟随基准(如AlpacaEval 2.0、MT-Bench、Arena-Hard-Auto)和学术多选问答基准(如GSM8K、TruthfulQA等)上评估性能。

Further Thoughts

本文提出的奖励增强数据集方法为解决直接偏好对齐的局限性提供了一个简单而有效的思路,但仍有值得深入探讨的方面。首先,方法高度依赖评判模型的奖励值质量,若奖励值存在噪声或偏差(如GPT-4评分可能受限于其自身偏见),可能会引入新的对齐问题,未来研究可以探索如何在奖励值不可靠的情况下稳健地应用此方法,例如结合多评判模型的共识或引入噪声鲁棒性机制。其次,奖励增强是否会过度拟合到特定奖励分布,限制模型对未见奖励目标的泛化能力,也是一个潜在风险,可通过跨数据集验证或动态奖励目标设计来进一步研究。此外,本方法与条件化微调(如SteerLM、DPA)的结合展示了多属性奖励条件化的潜力,这启发我们思考是否可以将奖励增强扩展到更广泛的AI对齐任务中,例如在多模态模型或多智能体系统中,通过条件化于多维目标(如安全性、效率、公平性)实现更全面的对齐。最后,联想到近期关于RLHF和DPO在长上下文任务中表现的研究,奖励增强方法是否能通过条件化于上下文相关奖励值提升长上下文推理能力,也是一个值得探索的方向。



Previous Post
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks
Next Post
Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs