Skip to content
Go back 2505.09970 arXiv logo

Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents

Published:  at  11:24 AM
87.43 🤔

本文提出Pre-Act方法,通过多步骤规划和详细推理提升LLM代理性能,并通过微调小型模型(如Llama 3.1 70B)在Almita数据集上实现比GPT-4高69.5%的行动准确率和28%的目标完成率。

Large Language Model, Reasoning, Planning, Agent, Fine-tuning, Human-AI Interaction

Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini

Uniphore

Generated by grok-3

Background Problem

大型语言模型(LLM)驱动的代理系统在对话和任务导向场景中表现出强大的潜力,但现有方法如ReAct(推理+行动)在处理复杂任务时存在局限性,尤其是在需要长期规划和多步骤决策时,缺乏上下文连贯性和对之前行动的动态调整能力。这导致代理在面对复杂任务时性能下降,特别是对于依赖于上下文的任务。此外,高级推理能力通常局限于大型专有模型(如GPT-4),限制了小型模型在实际应用中的广泛采用。本文提出了一种新方法Pre-Act,旨在通过多步骤规划和详细推理提升代理性能,并通过微调使小型模型也能达到类似大型模型的效果。

Method

Pre-Act方法的核心在于通过生成一个多步骤执行计划来增强LLM代理的性能,具体步骤如下:

批判性思考:虽然Pre-Act在理论上通过多步骤规划增强了代理的决策能力,但论文未详细说明如何在推理深度和计算成本之间取得平衡,尤其是在实时应用中,过多的推理步骤可能导致延迟。此外,动态调整机制的具体实现细节(如调整的触发条件和算法)描述不够清晰,可能影响方法的可重复性。

Experiment

实验在三个数据集上进行:Glaive、专有数据集和Almita,采用两级评估框架:

批判性思考:实验结果显示Pre-Act和微调策略在性能上有显著提升,但实验设计存在一些问题。首先,Almita数据集规模较小(仅1100个测试实例,18个用例),可能无法充分代表现实世界的多样性。其次,端到端评估依赖GPT-4作为评判模型,可能引入主观性和不稳定性,论文未讨论如何缓解这种波动性。此外,实验未探讨Pre-Act在不同任务复杂度下的表现,以及推理步骤增加对延迟的影响,这些都是实际应用中的关键问题。

Further Thoughts

Pre-Act方法的多步骤规划和动态调整机制为代理系统的设计提供了新的思路,特别是在需要长期决策的任务中,如机器人控制或复杂对话管理。然而,我认为其适用性可能受到任务类型和计算资源的限制。例如,在实时性要求高的场景中,过多的推理步骤可能导致不可接受的延迟,作者未来可以探索如何通过剪枝或优先级机制优化推理过程。此外,Pre-Act与最近的一些工作(如基于图结构的Graph-of-Thought)有潜在的结合点,可以通过引入结构化推理路径进一步提升计划的逻辑性和效率。另一个值得思考的方向是,Pre-Act的微调策略是否可以扩展到联邦学习场景中,以在保护数据隐私的同时提升小型模型的代理能力,这对于医疗或金融等敏感领域的应用尤为重要。



Previous Post
Scaling Reasoning can Improve Factuality in Large Language Models
Next Post
Towards Complementary Knowledge Distillation for Efficient Dense Image Prediction