CREAM: Consistency Regularized Self-Rewarding Language Models

本文提出了CREAM（Consistency Regularized Self-Rewarding Language Model）方法，通过衡量自奖励过程中不同迭代模型之间排序的一致性来正则化偏好训练，从而缓解奖励偏差问题，提高小型语言模型的对齐性能和训练稳定性。

Large Language Model, Self-Rewarding, Alignment, Consistency Regularization, Preference Training, Reward Bias

Zhaoyang Wang, Weilei He, Zhiyuan Liang, Xuchao Zhang, Chetan Bansal, Ying Wei, Weitong Zhang, Huaxiu Yao

University of North Carolina at Chapel Hill, Nanyang Technological University, National University of Singapore, Microsoft Research

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型（LLMs）的对齐是关键挑战，RLHF和DPO等方法依赖于大量的偏好数据，但人工标注成本高昂。自奖励语言模型（SRLMs）通过让LLM同时扮演策略模型（生成响应）和奖励模型（评分和排序）来自动合成偏好数据，实现了无需人工标注的迭代式偏好训练。然而，SRLMs存在奖励偏差问题，尤其对于7B等小型LLMs，其奖励和排序的准确性无法保证，可能导致偏好数据不可靠，累积偏差，使得模型性能在几次迭代后下降。

Method

本文首先提出了一个广义的迭代偏好微调框架，涵盖了SRLM、RLAIF等方法。在此框架下，分析了SRLM中奖励偏差源于对相似质量响应进行过度自信的偏好标注。基于此洞察，提出了CREAM方法，其核心思想是通过一致性正则化来缓解奖励偏差。具体方法如下：

响应采样: 使用当前策略模型 $\pi_{\theta^t}$ 为无标注提示词生成N个候选响应。
奖励计算与排序: 使用当前模型 $\pi_{\theta^t}$ 的内在奖励函数 $r_{\theta^t}(\mathbf{x}, \mathbf{y}) \propto [\log \pi_{\theta^t}(\mathbf{y}|\mathbf{x}) - \log \pi_{\theta^0}(\mathbf{y}|\mathbf{x})]$ 计算响应奖励，并得到基于当前模型的排序 $J_{ij}$ 。
一致性衡量: 使用上一迭代的模型 $\pi_{\theta^{t-1}}$ （对于M2迭代，使用初始SFT模型 $\pi_{\theta^0}$ ）计算同一批响应的奖励和排序 $K_{ij}$ 。然后，计算当前排序 $J$ 和上一迭代排序 $K$ 之间的Kendall’s Tau系数 $\tau_j$ 作为该提示词下排序的一致性度量。
一致性率计算: 将所有提示词的一致性度量平均，得到数据集的平均一致性率 $C = \frac{1}{|\mathcal{D}_U|} \sum_j \frac{\tau_j + 1}{2}$ 。这个一致性率反映了当前模型与上一迭代模型在偏好排序上的相似程度，也间接反映了当前偏好标注的可靠性。
一致性正则化偏好训练: 根据当前模型的排序 $J$ ，选择最佳响应 $y^+$ 和最差响应 $y^-$ 构成偏好对 $(x, y^+, y^-)$ 。构建正常DPO数据集 $\mathcal{D}_{DPO}$ 和反向DPO数据集 $\mathcal{D}_{RDPO}$ （将 $y^+$ 和 $y^-$ 对调）。使用加权DPO损失更新模型参数 $\theta^{t+1}$ ： $\mathcal{L}(\theta) = C \cdot \mathcal{L}_{DPO}(\pi_{\theta^t}, \mathcal{D}_{DPO}) + (1 - C) \cdot \mathcal{L}_{DPO}(\pi_{\theta^t}, \mathcal{D}_{RDPO})$ 。这等价于一个带有标签平滑的交叉熵损失，其中一致性率 $C$ 作为平滑因子，使得模型在一致性较低的偏好对上不过于自信地学习。整个过程迭代进行，模型在每次迭代中利用自身前一状态的排序信息进行正则化学习，从而缓解奖励偏差并稳定训练。

Experiment

实验主要使用参数量约为7B的Llama-3和Llama-2模型，以及13B的Llama-2模型进行。数据集包括Open Assistant数据集中约3.4K条人工标注数据作为SFT种子数据（DS），以及混合了DS和下游任务（ARC-Easy/Challenge、OpenBookQA、SIQA、GSM8K）训练集提示词的21K条无标注提示词数据（DU）。实验设置包括：首先在DS上进行SFT训练得到M1模型；然后进行迭代式偏好训练，通常进行两个额外迭代得到M2和M3模型（部分实验进行更多迭代）。在每次迭代中，模型生成N=5个响应，使用DPO奖励函数（基于当前模型和初始SFT模型的对数概率差）计算奖励并进行排序。CREAM方法在此基础上，计算当前迭代模型与上一迭代模型（M0作为参考模型用于计算M2的奖励，M(t-1)用于计算M(t)的奖励）之间排序的一致性（使用Kendall’s Tau系数），并以此一致性率作为权重，结合正常DPO损失和反向DPO损失进行模型更新。对比方法包括标准SRLM、使用外部奖励模型（InternLM2）的Oracle变体、SRLM+KL正则化以及不使用自动一致性率的CREAM变体（CREAM w/o RC）。实验结果表明：

标准SRLM在7B模型上表现不佳，尤其Llama-2，性能在迭代后下降。
CREAM显著优于标准SRLM，尤其在Llama-3上，性能持续提升，甚至在某些任务上超越了Oracle。
CREAM的性能提升在迭代中持续稳定，长期迭代（M4-M6）也未出现严重性能下降，而SRLM则急剧下降。
CREAM在奖励一致性（Kendall’s Tau, Spearman, TopOrder）方面显著优于SRLM。
DPO奖励函数比LLM-as-a-Judge提示词奖励更适合小型LLM的SRLM。
使用上一迭代模型作为一致性计算的基线模型是可行的，尤其对于基础能力较强的模型（如Llama-3）。
Kendall’s Tau作为一致性度量表现最佳，但其他度量也有效。
CREAM在13B模型和未完全对齐的模型上也能带来性能提升（需要少量SFT作为基础）。总体而言，实验结果验证了CREAM在缓解奖励偏差、提高奖励一致性和增强LLM对齐性能方面的有效性，尤其对于社区可负担的7B级别模型。

Further Thoughts

CREAM的核心思想是利用迭代过程中的“自一致性”来判断偏好标注的可靠性，这是一种非常巧妙且适用于SRLM场景的正则化方法。它避免了引入外部奖励模型，保持了SRLM的自给自足特性。这种利用模型自身在不同状态（迭代）下的行为差异来指导训练的思路，或许可以推广到其他自训练或迭代优化框架中，例如在知识蒸馏中利用教师模型在不同训练阶段或不同数据子集上的预测一致性来指导学生模型的训练。此外，论文中提到对于基础能力更强的模型（如Llama-3），上一迭代模型已经能提供可靠的一致性信号，这暗示了模型自身能力的提升与其内部一致性或自评估能力的增强是相关的，这本身也是一个值得深入研究的方向。