本文提出Pre-Act方法,通过多步骤规划和详细推理提升LLM代理性能,并通过微调小型模型(如Llama 3.1 70B)在Almita数据集上实现比GPT-4高69.5%的行动准确率和28%的目标完成率。
Large Language Model, Reasoning, Planning, Agent, Fine-tuning, Human-AI Interaction
Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini
Uniphore
Generated by grok-3
Background Problem
大型语言模型(LLM)驱动的代理系统在对话和任务导向场景中表现出强大的潜力,但现有方法如ReAct(推理+行动)在处理复杂任务时存在局限性,尤其是在需要长期规划和多步骤决策时,缺乏上下文连贯性和对之前行动的动态调整能力。这导致代理在面对复杂任务时性能下降,特别是对于依赖于上下文的任务。此外,高级推理能力通常局限于大型专有模型(如GPT-4),限制了小型模型在实际应用中的广泛采用。本文提出了一种新方法Pre-Act,旨在通过多步骤规划和详细推理提升代理性能,并通过微调使小型模型也能达到类似大型模型的效果。
Method
Pre-Act方法的核心在于通过生成一个多步骤执行计划来增强LLM代理的性能,具体步骤如下:
- 多步骤规划:对于给定的用户输入,Pre-Act生成一个包含多个步骤的计划,每个步骤都包含具体的行动和详细的推理过程。计划不仅考虑当前步骤,还包括之前的行动和观察结果作为上下文(累积上下文C^t),并在每一步后动态调整后续计划。
- 动态调整:当某一步的工具调用结果偏离预期或失败时,系统会根据最新的观察结果和累积上下文调整后续步骤,确保计划的连贯性和适应性。
- 微调策略:为了使小型模型(如Llama 3.1 8B和70B)适应Pre-Act,作者采用了课程学习方法,通过两阶段微调(初始微调基于ReAct,后续精炼基于Pre-Act)增强模型的代理能力。微调数据包括Glaive数据集和专有数据集,其中专有数据集由专家标注了每一步的详细推理。
批判性思考:虽然Pre-Act在理论上通过多步骤规划增强了代理的决策能力,但论文未详细说明如何在推理深度和计算成本之间取得平衡,尤其是在实时应用中,过多的推理步骤可能导致延迟。此外,动态调整机制的具体实现细节(如调整的触发条件和算法)描述不够清晰,可能影响方法的可重复性。
Experiment
实验在三个数据集上进行:Glaive、专有数据集和Almita,采用两级评估框架:
- 转级评估(Turn-Level):评估每个对话回合中预测行动与真实行动的一致性,指标包括行动召回率、工具调用的F1分数和参数匹配度,以及最终答案的相似度。结果显示,Pre-Act在五个预训练模型上的平均行动召回率比ReAct在Almita数据集上提高了70%,在专有数据集上提高了102%。
- 端到端评估(End-to-End):通过模拟环境(使用GPT-4作为合成用户)测试代理在完整对话中的任务完成能力,指标包括目标完成率(GC)和进展率(PR)。在Almita数据集的五个复杂用例中,微调后的Llama 3.1 70B模型在目标完成率上平均达到0.82,显著优于GPT-4的Pre-Act(0.64)和ReAct(0.32)。
- 微调效果:微调后的70B模型在Almita数据集上的行动召回率比GPT-4(Pre-Act)高出69.5%,比其未微调版本高出128%。
批判性思考:实验结果显示Pre-Act和微调策略在性能上有显著提升,但实验设计存在一些问题。首先,Almita数据集规模较小(仅1100个测试实例,18个用例),可能无法充分代表现实世界的多样性。其次,端到端评估依赖GPT-4作为评判模型,可能引入主观性和不稳定性,论文未讨论如何缓解这种波动性。此外,实验未探讨Pre-Act在不同任务复杂度下的表现,以及推理步骤增加对延迟的影响,这些都是实际应用中的关键问题。
Further Thoughts
Pre-Act方法的多步骤规划和动态调整机制为代理系统的设计提供了新的思路,特别是在需要长期决策的任务中,如机器人控制或复杂对话管理。然而,我认为其适用性可能受到任务类型和计算资源的限制。例如,在实时性要求高的场景中,过多的推理步骤可能导致不可接受的延迟,作者未来可以探索如何通过剪枝或优先级机制优化推理过程。此外,Pre-Act与最近的一些工作(如基于图结构的Graph-of-Thought)有潜在的结合点,可以通过引入结构化推理路径进一步提升计划的逻辑性和效率。另一个值得思考的方向是,Pre-Act的微调策略是否可以扩展到联邦学习场景中,以在保护数据隐私的同时提升小型模型的代理能力,这对于医疗或金融等敏感领域的应用尤为重要。