本文提出MINDcraft框架和MineCollab基准,评估LLM在多代理具身协作中的性能,揭示了当前模型在通信和协调方面的局限性,并呼吁开发更先进的协作方法。
Multi-Agent, Embodied Reasoning, Human-AI Interaction, Large Language Model, Collaborative Planning
Isadora White, Kolby Nottingham, Ayush Maniar, Max Robinson, Hansen Lillemark, Mehul Maheshwari, Lianhui Qin, Prithviraj Ammanabrolu
University of California, San Diego, Latitude Games, Emergent Garden
Generated by grok-3-mini-latest
Background Problem
本研究的出发点是强调在现实世界任务中,协作是普遍且必要的,AI代理应优化为与人类或其他AI协作以增强问题解决能力,而不是取代它们。论文指出了当前LLM代理在多代理协作中的关键问题,包括在具身环境中有效沟通、协调计划和适应反馈的挑战,特别是当任务涉及长时序决策、部分可观察性和自然语言沟通时,现有LLM代理表现不佳,导致性能下降高达15%,突出了需要超越上下文学习和模仿学习的方法来改进多代理具身协作。
Method
论文引入了MINDcraft平台,这是一个用于多代理LLM在Minecraft中进行协作的模拟环境,支持多轮对话、部分可观察性和长时序任务;以及MineCollab基准测试,包括烹饪、制作和建筑三个任务领域。核心思想是通过高层次的行动空间和工具命令(如!goToPlayer、!craftRecipe)让LLM代理控制角色,代理架构包括对话管理器、状态和行动空间设计(如47个参数化工具),并使用检索增强生成(RAG)系统提供少样本示例,支持代理在具身环境中协作和推理。
Experiment
实验在MineCollab基准上评估了多种LLM(如GPT-4o、Claude 3.5 Sonnet、LLaMA-70B),使用程序生成的数据集(烹饪、制作和建筑任务,轨迹长度平均超过20步),实验设置全面合理,包括改变代理数量、通信复杂度和任务复杂度(如建筑蓝图的材料和房间数量)。结果显示,性能随通信和具身复杂度的增加而下降,例如在建筑任务中,Claude 3.5 Sonnet的成功率不足40%,通信详细计划时性能下降超过15%,这与预期一致,突出了LLM在多代理协作中的瓶颈,并通过消融实验验证了提示和微调方法的局限性。
Further Thoughts
论文强调了部分可观察性和多轮对话在测试理论-of-mind能力方面的灵感,这可以扩展到人类-AI协作领域,如结合Habitat AI的机器人环境;此外,MINDcraft的开放性平台可能启发社会模拟研究,例如与Generative Agents类似,探索代理间涌现行为;未来可以整合多模态输入(如视觉工具)来提升代理在复杂环境中的泛化能力,并与Overcooked等框架结合,开发更高效的通信协议以减少协作瓶颈。