Skip to content
Go back 2504.20157 arXiv logo

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Published:  at  11:51 AM
86.27 🤔

本文提出元策略优化(MPO)框架,通过元奖励模型动态调整奖励模型的评估提示,显著提升了大语言模型在多种任务中的对齐性能,同时减少了奖励漏洞和手动提示工程的负担。

Reinforcement Learning, Large Language Model, Alignment, RLHF, Human-AI Interaction

Zae Myung Kim, Chanwoo Park, Vipul Raheja, Suin Kim, Dongyeop Kang

University of Minnesota, MIT, Grammarly, Elice

Generated by grok-3

Background Problem

大语言模型(LLM)在基于奖励的强化学习对齐(RLAIF)中面临两个主要问题:奖励漏洞(Reward Hacking),即模型可能利用奖励信号的缺陷生成不符合人类意图的输出;以及依赖繁琐的手动提示工程来设计奖励模型的评估标准,这限制了自动化和可扩展性。论文提出了一种新的框架——元策略优化(Meta Policy Optimization, MPO),旨在通过动态调整奖励模型的提示来提供更稳定的奖励信号,减少奖励漏洞,并降低手动提示设计的负担,从而提升模型在复杂任务中的对齐性能。

Method

MPO框架通过引入一个元奖励模型(Meta Reward Model, MRM)来动态优化奖励模型(Reward Model, RM)的评估提示,其核心思想是将认知科学中的元认知(Metacognition)和评价性思维(Evaluative Thinking, ET)引入强化学习。具体实现分为三个步骤:

从理论上看,MPO通过迭代细化观察分区(Observation Partition)来提高奖励信号的区分度,形式化表示为: Rt(o)=EsOo,t[r(s)]R_t(o) = \mathbb{E}_{s \in \mathcal{O}_{o,t}}[r(s)] 其中 Oo,t\mathcal{O}_{o,t} 表示随时间 tt 逐步细化的观察集合。这种动态调整旨在捕捉状态空间中的细微变化,从而实现更精确的策略优化。然而,实际实现中依赖于MRM对上下文的分析和提示生成,可能存在计算复杂度和泛化性问题,特别是在任务特性差异较大的情况下。

Experiment

论文在四个任务(论文写作、总结、伦理推理和数学推理)上测试了MPO框架的性能,实验设置如下:

结果分析

Further Thoughts

MPO框架将元认知引入奖励建模的思路为强化学习对齐提供了一个新颖的视角,特别是在处理复杂任务和减少奖励漏洞方面具有潜力。然而,我认为其实际应用可能面临几个挑战:首先,动态调整评估提示的计算开销可能限制其在大规模系统中的部署,尤其是在资源受限的环境下。其次,论文中未深入探讨如何根据训练动态自适应调整MPO的优化频率,这可能是提升效率和效果的关键方向。此外,MPO在不同任务上的表现差异提示我们,未来的研究可以进一步探索任务特异性与通用性之间的平衡,例如通过结合任务特定的元指导和跨任务的知识迁移来增强框架的适应性。另一个有趣的方向是将MPO与其他对齐方法(如DPO或GRPO)结合,探索是否能进一步提升对齐的稳定性和泛化性。最后,考虑到奖励漏洞问题的复杂性,是否可以通过引入多层次的元奖励模型或结合外部验证机制来更彻底地解决这一问题,值得进一步研究。



Previous Post
Fractured Chain-of-Thought Reasoning
Next Post
Context-Free Synthetic Data Mitigates Forgetting