Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

本文提出PNLC方法，通过离线RL训练轻量级目标条件值函数辅助大型语言模型在多轮交互任务中进行高效长程规划，在性能和计算效率上显著优于现有RL微调和推理时搜索方法。

Large Language Model, Reinforcement Learning, Planning, Reasoning, Efficiency, Multimodal Systems

Joey Hong, Anca Dragan, Sergey Levine

UC Berkeley

Generated by grok-3

Background Problem

大型语言模型（LLMs）在问答和对话等任务中表现出色，但在需要多轮交互的复杂任务（如谈判、说服、社交推理）中，缺乏长程规划能力。传统的强化学习（RL）微调方法虽然理论上可以提升LLM的规划能力，但由于计算和内存成本高、样本需求大，难以扩展到前沿模型（如GPT-4）。此外，现有基于提示（prompting）的方法依赖推理时搜索，计算开销大且效果有限。本文提出了一种新方法，通过离线RL训练目标条件值函数，辅助LLM在不直接微调模型的情况下提升规划能力，解决计算成本和可扩展性问题。

Method

本文提出了一种名为PNLC（Planning with a Natural Language Critic）的方法，其核心思想和步骤如下：

核心思想：不直接微调LLM，而是通过离线RL训练一个轻量级的目标条件值函数（Natural Language Critic），用于在推理时评估和优化LLM的高层次策略（thoughts），从而实现长程规划。
训练阶段：从任务特定的离线数据集中提取交互轨迹，训练一个目标条件值函数Q(s, a_tht, g)，其中s为当前状态，a_tht为高层次策略，g为未来目标状态，Q值预测从s执行a_tht后达到g的概率。数据处理包括：(1) 将交互历史总结为紧凑描述以减少计算复杂度；(2) 使用LLM（如GPT-3）将自然语言转换为低维嵌入，值函数基于嵌入训练为一个简单的两层MLP模型，而非复杂的Transformer。
推理阶段：在每个交互步骤，LLM生成初始策略（thought），自然语言评论家基于值函数生成正负未来目标状态及其概率（如正面结果概率40%，负面结果概率30%），并将这些信息以自然语言形式反馈给LLM，LLM据此优化策略，最多进行m=2轮优化。
关键创新：(1) 在高层次策略而非低层次动作上进行规划，降低决策空间复杂度；(2) 使用自然语言值函数提供多维反馈，而非单一标量值；(3) 避免推理时搜索，显著提高效率。
批判性观点：虽然方法设计上高效，但依赖任务特定数据训练值函数可能限制其跨任务泛化能力。此外，依赖LLM生成未来目标状态可能引入偏差，尤其在LLM不熟悉的领域中，生成的正负目标可能不准确或不全面，导致值函数评估失真。作者未充分讨论如何应对这一问题，仅在讨论部分提及局限性，缺乏具体解决方案。

Experiment

实验在三个多轮交互任务上验证了PNLC方法的有效性：

任务和数据集：包括WebShop（网上购物，基于Amazon数据，12k用户指令）、AvalonBench（社交推理游戏，2.5k轨迹）和Persuasion（说服任务，2.5k对话）。数据由GPT-3.5生成，模拟次优代理行为。
实验设置：与多种基线方法比较，包括RL微调方法（如ArCHeR）、基于提示的推理方法（如ReAct、Reflexion、LATS）和任务特定方法（如Agent Q、Strategist）。PNLC设置n=4个目标（2正2负），m=2轮优化。评估指标包括任务特定指标（如WebShop的得分和成功率、Avalon的胜率、Persuasion的平均捐款额）。
结果：PNLC在所有任务上表现最佳，例如在WebShop中得分78.2（对比Agent Q的77.1）、Avalon胜率47%（对比Strategist的42%）、Persuasion平均捐款0.87美元（对比GDP-Zero的0.74）。此外，PNLC推理时间显著低于搜索方法（如WebShop中5秒对比Agent Q的46秒）。
消融实验：验证了目标条件和优化过程的重要性，去除任一组件后性能下降至与简单提示方法（如ReAct）相当。
批判性分析：实验结果显示PNLC在性能和效率上优于基线，但存在以下问题：(1) 实验中使用的LLM模型大小不一（如PNLC用GPT-4，ArCHeR用GPT-2，Agent Q用Mixtral-7B），可能导致不公平比较，作者虽承认此局限但未提供控制变量的补充实验；(2) 数据集由GPT-3.5生成，可能存在生成偏差，未讨论数据质量对值函数训练的影响；(3) 任务特定值函数的训练需求可能限制方法在实际应用中的可扩展性，实验未探索跨任务迁移能力。总体而言，实验设置较为全面，但对模型和数据依赖的深入分析不足，结果的普适性存疑。

Further Thoughts

PNLC方法通过自然语言值函数辅助LLM规划的思路具有启发性，但其任务特定性限制了泛化能力。未来研究可以探索如何利用多任务离线数据训练通用值函数，以支持跨领域规划。此外，依赖LLM生成未来目标状态可能在高风险领域（如医疗、金融）不可靠，结合领域知识或外部知识库可能是一个改进方向。另一个有趣的联系是与RAG（Retrieval-Augmented Generation）领域的结合：是否可以通过检索历史交互数据或专家知识来增强值函数的评估能力？此外，论文未讨论值函数可能引入的伦理风险，例如在说服任务中，超强的规划能力可能被用于操纵用户，未来工作应考虑如何嵌入安全和对齐机制（如RLHF或DPO）以缓解潜在危害。