ShiQ: Bringing back Bellman to LLMs

本文提出ShiQ算法，通过从Bellman一致性方程出发设计适应LLM特性的损失函数，支持离线、token级的强化学习微调，并在单轮和多轮任务中表现出优于DPO和CoPG的奖励优化能力。

Reinforcement Learning, Large Language Model, Fine-tuning, Reasoning, Efficiency

Pierre Clavier, Nathan Grinsztajn, Raphael Avalos, Yannis Flet-Berliac, Irem Ergun, Omar D. Domingues, Eugene Tarassov, Olivier Pietquin, Pierre H. Richemond, Florian Strub, Matthieu Geist

Cohere, Vrije Universiteit Brussel, Earth Species Project

Generated by grok-3

Background Problem

大型语言模型（LLMs）的强化学习（RL）微调通常采用政策梯度方法（如PPO）来优化预期累积奖励，但这些方法存在显著缺陷：它们依赖于在线采样，计算成本高，尤其是在LLM生成新完成文本时；此外，它们难以有效处理离线数据和token级奖励信号。本文旨在解决这些问题，探索是否可以设计一个基于Q-learning的、理论上有依据的损失函数，允许离线、token级的学习，同时适应LLM的特有特性（如内存限制、初始化问题和稀疏奖励），从而提升微调效率和效果。

Method

本文提出了一种名为ShiQ（Shifted-Q）的算法，核心思想是通过从Bellman一致性方程出发，设计一个适应LLM特性的损失函数，支持离线、token级的强化学习。具体步骤如下：

建模LLM为MDP：将LLM生成过程建模为马尔可夫决策过程（MDP），其中状态为提示和已生成token的子序列，动作为下一个token，奖励可以是token级或序列级。
Bellman一致性方程的逐步调整：通过三次变换调整Bellman方程以适应LLM：1）简化采样过程，避免推理时依赖参考模型和温度参数；2）改进初始化，利用参考策略的logits作为Q值的更好起点；3）引入多步扩展，加速稀疏奖励在序列中的传播。
ShiQ损失函数：最终损失函数 $L_{\text{Shiq}}$ 基于多步Bellman一致性方程，优化logits作为Q值估计，支持离线学习和token级奖励，同时通过KL正则化与参考模型保持一致。

批判性思考：虽然理论推导严谨，但将Q-learning直接应用于LLM logits可能忽略了语言模型输出的复杂分布特性，logits是否能真正作为可靠的Q值估计仍需更多验证。此外，多步扩展虽然有助于稀疏奖励传播，但可能增加计算复杂性，尤其是在长序列任务中。

Experiment

实验在多个场景下评估了ShiQ的性能：

合成数据实验：在离线3臂老虎机和5x5网格世界MDP上测试，ShiQ在最终奖励和细粒度奖励设置下均表现出色，尤其在后者中能有效利用中间奖励信号，优于DPO和CoPG，遗憾值（regret）接近于零。
单轮LLM任务：在Anthropic-Harmless、Anthropic-Helpful和UltraFeedback数据集上，使用7B参数的Cohere R7B模型，ShiQ在奖励优化和KL散度控制上与CoPG相当，但使用的信息更少（无需成对偏好数据），优于DPO和DRO。
多轮LLM任务：在BFCL-V3数据集上测试功能调用能力，ShiQ利用多轮和细粒度奖励信息，在累积奖励优化上显著优于多轮DPO变体和CoPG。

评价与批判：实验设置较为全面，涵盖了合成数据和真实LLM任务，单轮和多轮场景。然而，对比方法的设置可能存在不公平，例如DPO在离线设置下的表现可能受到偏好数据模拟方式的影响。此外，实验未充分探讨奖励模型不可靠时的鲁棒性，而这是LLM微调中的常见问题。结果虽然显示ShiQ在多轮任务中表现突出，但计算开销和长序列任务中的稳定性未被详细分析。

Further Thoughts

ShiQ算法为将Q-learning引入LLM微调提供了一个新颖视角，尤其是在处理多轮任务和稀疏奖励时的表现令人印象深刻。然而，其依赖于可靠奖励模型的假设可能限制其在实际应用中的广泛性，未来可以探索结合奖励模型校正或自适应机制来增强鲁棒性。此外，ShiQ的多步扩展思想与传统RL中的n-step returns高度相关，或许可以进一步借鉴RL领域中处理长依赖问题的技术（如Eligibility Traces）来优化长序列任务中的奖励传播效率。另一个有趣的方向是探索ShiQ在其他领域（如机器人学或游戏AI）中的适用性，以验证其理论框架的通用性，同时与最新的RLHF（Reinforcement Learning from Human Feedback）方法结合，可能进一步提升LLM的对齐效果。