本文提出PLAN-AND-ACT框架,通过分离规划和执行模块、利用合成数据训练和动态重规划,提高LLM代理在复杂长期任务中的性能,并在web导航基准上达到state-of-the-art结果。
Planning, Reasoning, Agent, Synthetic Data, Human-AI Interaction, Adaptive Systems
Lutfi Eren Erdogan, Nicholas Lee, Sehoon Kim, Suhong Moon, Hiroki Furuta, Gopala Anumanchipalli, Kurt Keutzer, Amir Gholami
University of California, Berkeley, University of Tokyo, International Computer Science Institute
Generated by grok-3-mini-latest
Background Problem
大型语言模型(LLMs)在处理简单任务时表现出色,但面对复杂、多步骤、长期任务时仍存在挑战。关键问题包括难以将高层用户目标分解为具体行动步骤、维持一致策略以及适应动态环境(如环境变化或意外失败)。此外,高质量规划训练数据的稀缺性进一步加剧了这些问题,现有方法如使用单一模型直接映射查询到动作或采用强化学习(RL)存在不稳定性和超参数敏感性。
Method
核心思想: 通过将规划和执行分离,提出PLAN-AND-ACT框架,包括PLANNER模型负责生成结构化的高层计划和EXECUTOR模型负责将这些计划转化为环境特定动作。实现方式: PLANNER使用合成数据生成方法训练,包括从成功动作轨迹中逆向工程计划(grounded plan generation),并通过扩展生成更多多样数据(如使用LLM分析轨迹并增强泛化)。EXECUTOR执行计划中的步骤。框架还引入动态重规划(在每个动作后更新计划以适应环境变化)和思维链推理(CoT)以提高性能。关键步骤包括:1. 分析用户查询和初始HTML状态生成计划;2. 执行动作后基于反馈重新规划;3. 使用代理模型和损失梯度优化计划生成,而不修改原始模型。
Experiment
实验设置: 在WebArena-Lite、WebArena和WebVoyager基准上评估,数据集包括多样网站任务,使用LLaMA-3.3-70B等模型微调PLANNER和EXECUTOR。实验设计全面,包含消融研究(对比无规划、静态规划、动态重规划和CoT的影响),并与基线如WebRL、GPT-4o等比较。结果: 在WebArena-Lite上实现57.58%的成功率,优于现有SOTA;WebArena和WebVoyager上也表现出色。结果符合预期,合成数据扩展和动态重规划显著提升性能,平均步骤数减少,成功率提高,实验证明了方法的可扩展性和鲁棒性。
Further Thoughts
这个框架的模块化设计可能启发其他领域如机器人学中的分层任务规划,或与强化学习结合优化决策;合成数据生成的效率值得扩展到多模态任务中,并可探索与记忆机制或自适应算法的整合,以进一步提升代理的泛化能力和实时适应性。