LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models

本文通过LLM-Coordination基准测试框架，评估大型语言模型在纯协调游戏中的多智能体协调能力，发现其在环境依赖任务中表现优异但在心智理论推理和联合规划中存在显著不足，同时展现出对未见伙伴的零样本适应性。

Large Language Model, Multi-Agent, Reasoning, Planning, Zero-Shot Learning

Saaket Agashe, Yue Fan, Anthony Reyna, Xin Eric Wang

University of California, Santa Cruz

Generated by grok-3

Background Problem

大型语言模型（LLMs）近年来展现出涌现的常识推理和心智理论（Theory of Mind, ToM）能力，使其成为开发协调智能体的潜在候选者。然而，LLMs在纯协调游戏（Pure Coordination Games）中的具体能力、优势和局限性尚不明确。这些游戏要求智能体在无竞争动机的情况下，通过合作最大化收益，涉及对环境、伙伴信念和意图的推理。本研究旨在填补这一空白，系统评估和分析LLMs在多智能体协调场景中的表现，解决的关键问题是：LLMs是否能有效理解环境、推断伙伴意图并进行联合规划，以在纯协调设置中实现高效合作？

Method

本文提出了LLM-Coordination基准测试框架，包含两个任务：

Agentic Coordination：将LLMs嵌入一个智能体框架中，使其作为主动参与者在多轮纯协调游戏中行动。该框架基于认知架构，包括记忆（长期记忆存储游戏规则，工作记忆记录当前观察， эпизодическая память记录历史行动）、推理（LLM根据上下文生成下一步行动）和Grounding（将自然语言行动转换为游戏兼容指令）模块。特别地，在Hanabi游戏中引入了答案验证（Self-Verification）和ToM推理步骤，以减少错误并增强对伙伴意图的理解。
CoordinationQA：通过单轮问答任务，测试LLMs在环境理解（Environment Comprehension, EC）、心智理论推理（ToM Reasoning）和联合规划（Joint Planning, JP）三个方面的能力。问答集包含198个多选题，基于4个纯协调游戏（Hanabi、Overcooked-AI、Collab Capture、Collab Escape）的边缘案例，手动设计并标注，确保问题无歧义。核心思想是通过多轮游戏评估LLMs的整体协调能力，并通过单轮问答细化分析其具体能力短板。方法强调零样本设置，不进行训练或微调，直接测试LLMs的原生能力。

Experiment

实验分为两个部分：

Agentic Coordination：在自博弈（Self-Play）和交叉博弈（Cross-Play）设置下，测试LLMs在4个纯协调游戏中的表现。使用GPT-4-turbo、GPT-4o、GPT-3.5-turbo和Mixtral 8x7B等模型，与强化学习（RL）基线（如PPO、BAD、SAD）对比。结果显示，LLMs在依赖环境变量的游戏（如Overcooked）中表现优异，GPT-4-turbo在多个布局中匹配或超越RL基线；但在需要深度ToM推理的游戏（如Hanabi）中表现较差，远低于RL方法。零样本协调（ZSC）实验表明，LLMs对未见伙伴的适应性优于RL方法，尤其在Overcooked中与人类代理的表现接近甚至优于HSP基线。实验设置合理，涵盖多种游戏和布局，但未充分探讨延迟和计算成本对实时应用的限制。
CoordinationQA：测试5个LLM家族在198个多选题上的表现，分为EC、ToM和JP三类。结果显示，LLMs在环境理解（EC）上表现最佳，GPT-4-turbo正确率超80%；在ToM推理上表现下降；而在联合规划（JP）上表现最差，即使最佳模型正确率也低于40%，部分开源模型甚至不如随机选择。实验设计细致，手动挑选边缘案例确保问题清晰，但样本量有限，且手动标注可能引入偏差。总体结果与预期一致，揭示了LLMs在ToM和JP方面的显著短板。

Further Thoughts

本文的研究为LLMs在多智能体协调领域的应用提供了有价值的初步见解，但也引发了一些深层次的问题值得进一步探索。首先，LLMs在ToM推理和联合规划上的不足是否可以通过引入社会认知理论或人类行为数据来改进？例如，是否可以借鉴社会智能体研究中的信念-欲望-意图（BDI）模型，为LLMs设计更强的心理状态推理模块？其次，论文中提到的零样本协调能力让我联想到跨领域泛化问题，是否可以通过与其他领域的协调任务（如机器人协作或群体决策）进行对比实验，进一步验证LLMs的适应性机制？此外，延迟和计算成本问题是LLMs实际应用的重要瓶颈，未来是否可以探索轻量化模型或混合架构（如结合RL和LLM），以实现实时协调？最后，本文的手动边缘案例设计虽然保证了问题清晰，但限制了扩展性，是否可以利用生成式AI自动生成协调场景和问题，以提升基准测试的多样性和覆盖面？这些方向可能为LLMs在协调任务中的发展和应用提供新的思路。