Reverse Preference Optimization for Complex Instruction Following

本文提出逆向偏好优化（RPO）方法，通过动态反转指令中未满足的约束消除偏好对噪声，在多轮复杂指令跟随任务上显著优于DPO基线，并在70B模型上超越GPT-4o。

Large Language Model, Instruction Tuning, Alignment, Reinforcement Learning, Multimodal Systems, Human-AI Interaction

Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li

Tongyi Lab, State Key Laboratory for Novel Software Technology, Nanjing University, China

Generated by grok-3

Background Problem

大型语言模型（LLMs）在指令跟随（Instruction Following, IF）任务中表现出色，但处理包含多重约束的复杂指令时仍面临挑战。传统方法通常基于响应满足约束的数量来构建偏好对，但这种方式存在两个主要问题：一是总分差异无法准确反映响应之间的真实差异，可能低估或误导模型；二是偏好对中可能引入噪声，例如选中响应在某些约束上表现较差，而被拒绝响应在某些方面更优，导致优化方向模糊。论文提出了一种新方法，旨在通过消除噪声和减少采样负担来提升多偏好对齐的效果。

Method

论文提出了逆向偏好优化（Reverse Preference Optimization, RPO）方法，核心思想和步骤如下：

核心思想：通过动态反转指令中响应未满足的约束，将任意响应转化为针对新指令的‘完美’响应，从而避免采样完美响应的负担，并消除偏好对中的噪声。
具体实现：
1. 对于给定的指令和响应，评估响应是否满足每个约束。
2. 对响应未满足的约束进行反转（例如，将‘少于200字’反转为‘至少200字’），生成新的指令。
3. 在新指令下，原响应成为完美响应（选中响应），并与其他响应形成偏好对，确保选中响应在所有约束上不劣于被拒绝响应。
4. 引入自适应边距（adaptive margin）参数 $\gamma g$ ，其中 $g$ 为响应在约束遵循上的差异数量，用于增强优化方向的清晰度。
优化目标：RPO基于DPO框架，优化目标为： $\mathcal{L}_{\text{RPO}} = -\mathbb{E}_{(x_{S_i}, y_i, y_j, g) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_i | x_{S_i})}{\pi_{ref}(y_i | x_{S_i})} - \beta \log \frac{\pi_{\theta}(y_j | x_{S_i})}{\pi_{ref}(y_j | x_{S_i})} - \gamma g \right) \right]$
关键优势：RPO无需采样完美响应，任何两个在约束遵循上存在差异的响应均可构建偏好对；反转约束放大选中与被拒绝响应之间的差距，增强优化鲁棒性。
批判性思考：虽然RPO在理论上通过反转约束消除了噪声，但反转过程可能引入新的偏差，例如反转后的约束可能与用户真实意图不符。此外，某些约束可能无法有效反转（如伦理或上下文依赖约束），论文未提供充分解决方案，这可能限制方法的适用范围。

Experiment

实验设计和结果如下：

数据集：使用两个多轮复杂指令跟随数据集：SysBench（500个五轮对话，基于真实场景系统提示）和Multi-IF（4501个多语言三轮对话）。
实验设置：基于Llama-3.1（8B和70B）和Qwen-2.5（7B和72B）模型，采用LoRA和DeepSpeed进行训练，比较RPO与SFT、DPO和KTO基线，以及闭源模型如GPT-4o。
结果：
1. 在SysBench上，RPO在Llama-3.1 8B模型上相较DPO基线平均提升4.6分（CSR、ISR、SSR分别提升2.5、4.6、6.6分）；在70B模型上，RPO超越GPT-4o。
2. 在Multi-IF上，RPO在Llama-3.1 8B模型上相较DPO提升2.5分（三个步骤分别提升2.9、2.6、2.1分）。
3. RPO在不同规模和系列模型上均表现出色，显示出良好的扩展性。
4. 进一步分析表明，RPO在选中与被拒绝响应奖励差距的增长上优于DPO，且对训练数据量不敏感，采样效率显著高于直接采样或自优化方法。
评价与批判：实验结果表明RPO在多轮指令跟随任务上确实优于DPO等基线，尤其在放大偏好对差距和提升采样效率方面表现突出。然而，实验设计存在局限：一是仅关注多轮指令跟随任务，未测试单轮复杂指令或非指令任务的泛化能力；二是反转约束的额外计算成本未被量化，可能低估实际开销；三是依赖LLM进行约束评估和反转，可能引入评估误差，论文未充分讨论如何缓解此类误差的影响。总体而言，实验设置较为全面，但结果的普适性需进一步验证。

Further Thoughts

RPO方法通过反转约束来构建无噪声偏好对的思路具有一定创新性，但其依赖于约束反转的质量和可行性，这在实际应用中可能面临挑战。进一步思考，RPO是否可以与其他对齐方法（如在线DPO或课程学习）结合，以动态调整反转策略或优先学习易于反转的约束？此外，RPO在多轮对话中的成功可能启发其在多模态任务中的应用，例如在视觉-语言模型中反转视觉约束（如‘包含特定对象’反转为‘不包含特定对象’），但这需要解决跨模态约束反转的复杂性问题。另一个值得探索的方向是RPO与隐私保护技术的结合，例如在联邦学习场景中，是否可以通过反转约束来保护用户偏好数据的隐私，同时仍能有效对齐模型？这些跨领域应用可能为RPO提供更广阔的发展空间，但也需要更深入的理论和实验支持。