Skip to content
Go back 2505.18098 arXiv logo

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

Published:  at  11:52 AM
85.07 🤔

本文提出PNLC方法,通过离线RL训练轻量级目标条件值函数辅助大型语言模型在多轮交互任务中进行高效长程规划,在性能和计算效率上显著优于现有RL微调和推理时搜索方法。

Large Language Model, Reinforcement Learning, Planning, Reasoning, Efficiency, Multimodal Systems

Joey Hong, Anca Dragan, Sergey Levine

UC Berkeley

Generated by grok-3

Background Problem

大型语言模型(LLMs)在问答和对话等任务中表现出色,但在需要多轮交互的复杂任务(如谈判、说服、社交推理)中,缺乏长程规划能力。传统的强化学习(RL)微调方法虽然理论上可以提升LLM的规划能力,但由于计算和内存成本高、样本需求大,难以扩展到前沿模型(如GPT-4)。此外,现有基于提示(prompting)的方法依赖推理时搜索,计算开销大且效果有限。本文提出了一种新方法,通过离线RL训练目标条件值函数,辅助LLM在不直接微调模型的情况下提升规划能力,解决计算成本和可扩展性问题。

Method

本文提出了一种名为PNLC(Planning with a Natural Language Critic)的方法,其核心思想和步骤如下:

Experiment

实验在三个多轮交互任务上验证了PNLC方法的有效性:

Further Thoughts

PNLC方法通过自然语言值函数辅助LLM规划的思路具有启发性,但其任务特定性限制了泛化能力。未来研究可以探索如何利用多任务离线数据训练通用值函数,以支持跨领域规划。此外,依赖LLM生成未来目标状态可能在高风险领域(如医疗、金融)不可靠,结合领域知识或外部知识库可能是一个改进方向。另一个有趣的联系是与RAG(Retrieval-Augmented Generation)领域的结合:是否可以通过检索历史交互数据或专家知识来增强值函数的评估能力?此外,论文未讨论值函数可能引入的伦理风险,例如在说服任务中,超强的规划能力可能被用于操纵用户,未来工作应考虑如何嵌入安全和对齐机制(如RLHF或DPO)以缓解潜在危害。



Previous Post
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
Next Post
ATLAS: Learning to Optimally Memorize the Context at Test Time