Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework

本文提出了LMGT框架，通过利用大型语言模型的先验知识对强化学习的奖励进行动态调整，有效平衡了探索与利用，显著提高了样本效率并降低了训练成本，并在多种环境、算法以及机器人和推荐系统等复杂场景中验证了其有效性。

Reinforcement Learning, Large Language Model, Reward Guidance, Sample Efficiency, Exploration Exploitation, Human-AI Interaction

Yongxin Deng, Xihe Qiu, Jue Chen, Xiaoyu Tan

Shanghai University of Engineering Science, INFLY TECH (Shanghai) Co., Ltd.

Generated by gemini-2.5-flash-preview-04-17

Background Problem

强化学习（RL）面临着探索与利用之间的基本权衡挑战，尤其是在稀疏奖励环境中，准确估计预期奖励和优化计算资源变得困难。许多环境拥有丰富的先验知识，但从头开始学习是多余的。传统的探索策略（如ϵ-greedy、Softmax、UCB、Thompson sampling）通常是静态的或需要大量领域专业知识，难以适应动态或多模态环境，并且未能有效利用先验知识。

Method

本文提出了语言模型引导的奖励调整（LMGT）框架，旨在利用大型语言模型（LLMs）的丰富先验知识和非标准数据处理能力来指导RL智能体的学习，提高样本效率。

核心思想： 在不改变RL基本训练流程的前提下，通过LLM对智能体的行为进行评估，并生成一个“奖励调整项”（reward shift），将其加到环境提供的原始奖励上，形成调整后的奖励。智能体根据这个调整后的奖励进行学习。
工作流程：
1. 智能体根据当前行为策略选择动作。
2. 将环境的可观察状态和智能体选择的动作发送给LLM。
3. LLM作为“评估器”，利用其内置的或通过Prompt提供的先验知识（如游戏规则、常识）评估智能体的行为，并给出一个评分，作为奖励调整项 $\delta r$ 。
4. 将环境奖励 $r'$ 与奖励调整项 $\delta r$ 相加，得到最终奖励 $r = r' + \delta r$ 。
5. 智能体将状态、动作、调整后的奖励和下一状态存储到经验回放缓冲区。
6. 智能体从缓冲区采样数据进行学习（Off-Policy方法）。
奖励调整机制： LLM根据先验知识将动作评估为“有价值”（positive shift，如+1）、“无价值”（negative shift，如-1）或“中立”（zero shift，如0）。正向调整鼓励智能体在有价值的方向上进行利用和邻近探索；负向调整避免智能体探索无价值的方向；零调整则遵循原始探索策略。
多模态处理： 对于非文本环境（如视觉环境），LMGT采用流水线模型方法，结合视觉指令微调（如LLaVA）将视觉信息处理成嵌入，再输入给LLM进行评估，而非简单的图像描述转文本。

Experiment

实验分为三个部分：

与传统方法的比较：
- 对比RUDDER（延迟奖励）： 在怀表修理任务中，LMGT+TD比TD、MC和RUDDER更快达到90%的盈利决策率，所需训练Episode和时间均显著减少（Episode减少约79.4%，时间减少约33.3%）。表明LMGT能有效加速价值学习和信用分配。
- 对比NGU（探索驱动）： 在稀疏奖励的Atari游戏（Pitfall, Montezuma’s Revenge）中，LMGT+R2D2在训练后期和早期均显著优于R2D2和NGU+R2D2，尤其在Montezuma’s Revenge中性能提升更明显。表明LMGT利用先验知识提高了探索效率。
在不同RL算法和环境中的评估：
- 在Cart Pole和Pendulum环境中使用DQN、PPO、A2C、SAC、TD3等多种算法进行测试。结果显示，LMGT在大多数设置下都能带来性能提升（奖励增加），尤其是在环境状态以结构化数值（“box”）形式提供给LLM时。当状态以视觉形式（“human”）通过流水线模型处理时，性能提升不明显甚至下降，表明多模态处理对LLM性能有影响。
- Prompt设计影响： 测试了CoT、Zero-shot、Few-shot、Name等Prompt策略。CoT+Zero-shot（包含先验知识）效果最好，尤其在复杂任务中。Few-shot容易导致LLM产生“幻觉”。Name策略效果不明显。Prompt中包含先验知识有助于提升性能。
- 不同LLM影响： 测试了不同大小和量化方式的Vicuna和Llama2模型。模型大小对性能影响较大，大模型效果更好。适当的量化对性能影响有限。不同模型在相同规模下性能有差异。
- Ablation Study（Blackjack）： 在视觉复杂的Blackjack环境中，当LLM需要处理视觉信息（“human”格式）时，LMGT性能接近基线，而在处理数值信息（“box”格式）时性能有提升。这支持了LLM在多任务（视觉处理+评估）下性能可能下降的假设，也表明LMGT的有效性依赖于LLM的指导能力。
在复杂环境和工业场景中的验证：
- Housekeep机器人环境： 在模拟机器人整理房间任务中，LMGT优于APT和使用学习描述符的ELLM。在某些情况下，LMGT甚至能媲美使用地面真实文本描述的ELLM，验证了其在复杂具身任务中的有效性和视觉指令微调的作用。
- 工业推荐场景（RecSim/SlateQ）： 在“巧克力 vs. 羽衣甘蓝”推荐任务中，LMGT与Google的SlateQ算法结合，显著加速了智能体的技能学习，尤其在早期Episode中平均奖励提升明显，展示了在工业应用中降低训练成本的潜力。

Further Thoughts

LMGT框架通过将LLM作为外部评估器来指导RL，提供了一种新颖且灵活的利用先验知识的方式。这与直接将LLM作为Agent或Policy的方法不同，避免了LLM推理的高延迟和计算成本在在线决策中的影响，而将其限制在训练阶段。

该研究揭示了几个值得深入探讨的方向：

多模态信息的有效融合： 论文中提到通过流水线模型处理视觉信息会影响LLM的评估性能，这可能是因为简单的嵌入传递或多任务处理导致信息损失或能力下降。未来的工作可以探索更深度的多模态融合架构，让LLM更好地理解和利用视觉等非文本信息。
LLM指导的理论分析： 目前对LLM如何动态影响奖励结构缺乏严格的理论框架。理解奖励调整与价值函数初始化、收敛性、探索多样性之间的关系，将有助于设计更鲁棒和可控的LMGT变体。
计算效率优化： LLM推理的计算开销仍然是实际部署的限制。除了知识蒸馏，还可以研究选择性推理（只在关键状态查询LLM）、异步指导或更轻量级的指导模型，以平衡性能提升和计算成本。
先验知识的获取与表示： LMGT的性能依赖于LLM中先验知识的质量。如何更有效地将特定领域的先验知识（如专家经验、教程）注入或提供给LLM，以及如何让LLM更好地理解和利用这些知识，是关键问题。Prompt工程是初步尝试，但可能需要更结构化的知识表示或微调方法。
分层指导： 对于长时程、多步骤的复杂任务，顶层LLM提供高层策略指导，底层LLM提供局部奖励调整的分层结构，有望进一步提升效率和健壮性。