Skip to content
Go back 2505.22172 arXiv logo

Reverse Preference Optimization for Complex Instruction Following

Published:  at  11:44 AM
85.20 🤔

本文提出逆向偏好优化(RPO)方法,通过动态反转指令中未满足的约束消除偏好对噪声,在多轮复杂指令跟随任务上显著优于DPO基线,并在70B模型上超越GPT-4o。

Large Language Model, Instruction Tuning, Alignment, Reinforcement Learning, Multimodal Systems, Human-AI Interaction

Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li

Tongyi Lab, State Key Laboratory for Novel Software Technology, Nanjing University, China

Generated by grok-3

Background Problem

大型语言模型(LLMs)在指令跟随(Instruction Following, IF)任务中表现出色,但处理包含多重约束的复杂指令时仍面临挑战。传统方法通常基于响应满足约束的数量来构建偏好对,但这种方式存在两个主要问题:一是总分差异无法准确反映响应之间的真实差异,可能低估或误导模型;二是偏好对中可能引入噪声,例如选中响应在某些约束上表现较差,而被拒绝响应在某些方面更优,导致优化方向模糊。论文提出了一种新方法,旨在通过消除噪声和减少采样负担来提升多偏好对齐的效果。

Method

论文提出了逆向偏好优化(Reverse Preference Optimization, RPO)方法,核心思想和步骤如下:

Experiment

实验设计和结果如下:

Further Thoughts

RPO方法通过反转约束来构建无噪声偏好对的思路具有一定创新性,但其依赖于约束反转的质量和可行性,这在实际应用中可能面临挑战。进一步思考,RPO是否可以与其他对齐方法(如在线DPO或课程学习)结合,以动态调整反转策略或优先学习易于反转的约束?此外,RPO在多轮对话中的成功可能启发其在多模态任务中的应用,例如在视觉-语言模型中反转视觉约束(如‘包含特定对象’反转为‘不包含特定对象’),但这需要解决跨模态约束反转的复杂性问题。另一个值得探索的方向是RPO与隐私保护技术的结合,例如在联邦学习场景中,是否可以通过反转约束来保护用户偏好数据的隐私,同时仍能有效对齐模型?这些跨领域应用可能为RPO提供更广阔的发展空间,但也需要更深入的理论和实验支持。



Previous Post
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models
Next Post
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models