本文提出ShiQ算法,通过从Bellman一致性方程出发设计适应LLM特性的损失函数,支持离线、token级的强化学习微调,并在单轮和多轮任务中表现出优于DPO和CoPG的奖励优化能力。
Reinforcement Learning, Large Language Model, Fine-tuning, Reasoning, Efficiency
Pierre Clavier, Nathan Grinsztajn, Raphael Avalos, Yannis Flet-Berliac, Irem Ergun, Omar D. Domingues, Eugene Tarassov, Olivier Pietquin, Pierre H. Richemond, Florian Strub, Matthieu Geist
Cohere, Vrije Universiteit Brussel, Earth Species Project
Generated by grok-3
Background Problem
大型语言模型(LLMs)的强化学习(RL)微调通常采用政策梯度方法(如PPO)来优化预期累积奖励,但这些方法存在显著缺陷:它们依赖于在线采样,计算成本高,尤其是在LLM生成新完成文本时;此外,它们难以有效处理离线数据和token级奖励信号。本文旨在解决这些问题,探索是否可以设计一个基于Q-learning的、理论上有依据的损失函数,允许离线、token级的学习,同时适应LLM的特有特性(如内存限制、初始化问题和稀疏奖励),从而提升微调效率和效果。
Method
本文提出了一种名为ShiQ(Shifted-Q)的算法,核心思想是通过从Bellman一致性方程出发,设计一个适应LLM特性的损失函数,支持离线、token级的强化学习。具体步骤如下:
- 建模LLM为MDP:将LLM生成过程建模为马尔可夫决策过程(MDP),其中状态为提示和已生成token的子序列,动作为下一个token,奖励可以是token级或序列级。
- Bellman一致性方程的逐步调整:通过三次变换调整Bellman方程以适应LLM:1)简化采样过程,避免推理时依赖参考模型和温度参数;2)改进初始化,利用参考策略的logits作为Q值的更好起点;3)引入多步扩展,加速稀疏奖励在序列中的传播。
- ShiQ损失函数:最终损失函数 基于多步Bellman一致性方程,优化logits作为Q值估计,支持离线学习和token级奖励,同时通过KL正则化与参考模型保持一致。
批判性思考:虽然理论推导严谨,但将Q-learning直接应用于LLM logits可能忽略了语言模型输出的复杂分布特性,logits是否能真正作为可靠的Q值估计仍需更多验证。此外,多步扩展虽然有助于稀疏奖励传播,但可能增加计算复杂性,尤其是在长序列任务中。
Experiment
实验在多个场景下评估了ShiQ的性能:
- 合成数据实验:在离线3臂老虎机和5x5网格世界MDP上测试,ShiQ在最终奖励和细粒度奖励设置下均表现出色,尤其在后者中能有效利用中间奖励信号,优于DPO和CoPG,遗憾值(regret)接近于零。
- 单轮LLM任务:在Anthropic-Harmless、Anthropic-Helpful和UltraFeedback数据集上,使用7B参数的Cohere R7B模型,ShiQ在奖励优化和KL散度控制上与CoPG相当,但使用的信息更少(无需成对偏好数据),优于DPO和DRO。
- 多轮LLM任务:在BFCL-V3数据集上测试功能调用能力,ShiQ利用多轮和细粒度奖励信息,在累积奖励优化上显著优于多轮DPO变体和CoPG。
评价与批判:实验设置较为全面,涵盖了合成数据和真实LLM任务,单轮和多轮场景。然而,对比方法的设置可能存在不公平,例如DPO在离线设置下的表现可能受到偏好数据模拟方式的影响。此外,实验未充分探讨奖励模型不可靠时的鲁棒性,而这是LLM微调中的常见问题。结果虽然显示ShiQ在多轮任务中表现突出,但计算开销和长序列任务中的稳定性未被详细分析。
Further Thoughts
ShiQ算法为将Q-learning引入LLM微调提供了一个新颖视角,尤其是在处理多轮任务和稀疏奖励时的表现令人印象深刻。然而,其依赖于可靠奖励模型的假设可能限制其在实际应用中的广泛性,未来可以探索结合奖励模型校正或自适应机制来增强鲁棒性。此外,ShiQ的多步扩展思想与传统RL中的n-step returns高度相关,或许可以进一步借鉴RL领域中处理长依赖问题的技术(如Eligibility Traces)来优化长序列任务中的奖励传播效率。另一个有趣的方向是探索ShiQ在其他领域(如机器人学或游戏AI)中的适用性,以验证其理论框架的通用性,同时与最新的RLHF(Reinforcement Learning from Human Feedback)方法结合,可能进一步提升LLM的对齐效果。