Skip to content
Go back 2310.03903 arXiv logo

LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models

Published:  at  09:34 AM
85.07 🤔

本文通过LLM-Coordination基准测试框架,评估大型语言模型在纯协调游戏中的多智能体协调能力,发现其在环境依赖任务中表现优异但在心智理论推理和联合规划中存在显著不足,同时展现出对未见伙伴的零样本适应性。

Large Language Model, Multi-Agent, Reasoning, Planning, Zero-Shot Learning

Saaket Agashe, Yue Fan, Anthony Reyna, Xin Eric Wang

University of California, Santa Cruz

Generated by grok-3

Background Problem

大型语言模型(LLMs)近年来展现出涌现的常识推理和心智理论(Theory of Mind, ToM)能力,使其成为开发协调智能体的潜在候选者。然而,LLMs在纯协调游戏(Pure Coordination Games)中的具体能力、优势和局限性尚不明确。这些游戏要求智能体在无竞争动机的情况下,通过合作最大化收益,涉及对环境、伙伴信念和意图的推理。本研究旨在填补这一空白,系统评估和分析LLMs在多智能体协调场景中的表现,解决的关键问题是:LLMs是否能有效理解环境、推断伙伴意图并进行联合规划,以在纯协调设置中实现高效合作?

Method

本文提出了LLM-Coordination基准测试框架,包含两个任务:

Experiment

实验分为两个部分:

Further Thoughts

本文的研究为LLMs在多智能体协调领域的应用提供了有价值的初步见解,但也引发了一些深层次的问题值得进一步探索。首先,LLMs在ToM推理和联合规划上的不足是否可以通过引入社会认知理论或人类行为数据来改进?例如,是否可以借鉴社会智能体研究中的信念-欲望-意图(BDI)模型,为LLMs设计更强的心理状态推理模块?其次,论文中提到的零样本协调能力让我联想到跨领域泛化问题,是否可以通过与其他领域的协调任务(如机器人协作或群体决策)进行对比实验,进一步验证LLMs的适应性机制?此外,延迟和计算成本问题是LLMs实际应用的重要瓶颈,未来是否可以探索轻量化模型或混合架构(如结合RL和LLM),以实现实时协调?最后,本文的手动边缘案例设计虽然保证了问题清晰,但限制了扩展性,是否可以利用生成式AI自动生成协调场景和问题,以提升基准测试的多样性和覆盖面?这些方向可能为LLMs在协调任务中的发展和应用提供新的思路。



Previous Post
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
Next Post
Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization