Toward Efficient Exploration by Large Language Model Agents

本文通过使用 LLMs 显式实现后验采样 RL 算法，显著提高了 LLMs 代理在自然语言环境中的探索效率，同时保留了经典算法的统计性能优势。

Reinforcement Learning, Large Language Model, Reasoning, Planning, Efficiency, Human-AI Interaction

Dilip Arumugam, Thomas L. Griffiths

Princeton University

Generated by grok-3-mini-latest

Background Problem

本研究的出发点是解决大型语言模型（LLMs）代理在强化学习（RL）中的探索效率问题。背景在于，LLMs 已在许多任务中表现出色，但其在 RL 中的数据效率较低，特别是探索方面存在挑战。现有 LLMs 代理设计通常依赖于微调或上下文学习来隐式模仿 RL 算法，但这些方法在处理探索时效果不佳。同时，经典 RL 算法（如后验采样 RL）虽能高效探索，但其技术实现难以直接应用于纯自然语言环境。本工作解决了 LLMs 代理在自然语言任务中实现高效探索的关键问题，即如何利用 LLMs 显式实现现有 RL 算法来提升探索效率，同时避免了传统方法在高维或语言环境中的计算障碍。

Method

核心思想： 本文提出使用 LLMs 显式实现后验采样强化学习（PSRL）算法，以在不牺牲 LLMs 泛化能力的前提下，实现高效探索。PSRL 是一种基于贝叶斯方法的 RL 算法，通过采样后验分布来引导探索。
实现方式： LLMs 被分配三个角色：（1）近似后验更新器，负责根据观测轨迹更新后验分布；（2）后验采样器，基于当前后验生成一个假设 MDP；（3）最优策略执行器，针对采样后的 MDP 选择最优动作。具体步骤包括：首先，从先验或当前后验中采样一个 MDP 假设；然后，在每个时间步，使用 LLMs 生成与该假设一致的最优动作；最后，基于完整轨迹更新后验分布。整个过程不依赖于 LLMs 的微调，仅通过提示工程在推理时动态调整采样和决策。
主要步骤： （1）初始化自然语言表述的先验分布；（2）在每个episode 开始时，使用后验采样 LLMs 生成一个后验样本；（3）在每个时间步，使用最优策略 LLMs 基于当前状态和样本选择动作；（4）episode 结束后，使用后验更新 LLMs 整合观测数据更新后验。该方法利用 LLMs 的语言处理能力来处理贝叶斯后验和最优规划，适用于自然语言环境。

Experiment

实验设置： 本文在多个任务上评估了 LLM-based PSRL，包括多臂老虎机（Bernoulli bandit）、组合锁（deterministic MDP）、Wordle 游戏（deterministic MDP）和 RiverSwim（stochastic MDP）。数据集选择多样，涵盖确定性和随机动态环境。基线包括 In-Context Policy Iteration (ICPI)、In-Context RL (ICRL) 和 Reflexion。实验设计合理，关注累积遗憾（regret）指标，评估探索效率；例如，在 Bernoulli bandit 中，使用 5 个臂，行动间隙为 0.2；在组合锁和 Wordle 中，测试有限 episode 下的探索；在 RiverSwim 中，比较不同 LLM 模型（如 GPT-4o 和 o1-mini）的性能。
实验结果： LLM-based PSRL 在大多数任务中表现出色，与基线相比，探索效率更高。例如，在 Bernoulli bandit 中，PSRL 的累积遗憾低于经典 Thompson Sampling；在组合锁和 Wordle 中，PSRL 显著降低了遗憾，展示了更好的探索策略；在 RiverSwim 中，使用 o1-mini 时实现了亚线性遗憾，而 GPT-4o 表现较差。结果符合预期，因为 PSRL 的理论保证（高效探索）在实验中体现，尤其在随机环境中，模型升级（如从 GPT-4o 到 o1-mini）显著改善了性能。实验设置全面，考虑了不同动态类型和 LLM 能力，验证了方法的鲁棒性和可扩展性。
效果评估： 方法改进明显，特别是在探索密集任务中；实验设计合理，控制了变量（如温度参数和 LLM 模型），并通过累积遗憾曲线和统计指标（如后缀失败频率）量化了结果。

Further Thoughts

本文的灵感在于将经典 RL 算法与 LLMs 相结合，这不仅扩展了 PSRL 在自然语言任务中的应用，还启发了对其他领域如 RLHF（强化学习从人类反馈）的优化，例如通过主动探索减少偏好数据需求；此外，LLMs 在后验采样中的近似能力可能与深度不确定性估计相关联（如神经网络方法），未来可探索混合方法来处理高维随机环境；同时，提示工程的设计可能影响算法鲁棒性，值得与元提示或链式思考技术整合，以提升 LLMs 在复杂决策中的泛化。