本论文提出使用Codenames游戏作为LLMs推理能力的基准,通过实验评估不同LLMs在语言理解、战略推理和合作方面的表现,展示了它们的独特行为和泛化潜力。
Large Language Model, Reasoning, Human-AI Interaction, Multimodal Systems, In-Context Learning
Matthew Stephenson, Matthew Sidji, Benoît Ronval
Flinders University, University of Melbourne, UCLouvain
Generated by grok-3-mini-latest
Background Problem
本研究的出发点是探索一种适合评估大型语言模型(LLMs)推理能力的基准测试工具。背景问题在于,LLMs在语言任务上取得了快速进展,但传统AI基准如国际象棋或围棋更侧重空间推理和战略规划,而LLMs在这些领域的表现较弱。Codenames作为一款基于语言的合作游戏,强调自然语言理解、理论心智(theory of mind)和认识论推理(epistemic reasoning),能够更好地测试LLMs的语言中心能力。该工作解决了之前Codenames AI框架的简化问题,例如早期方法依赖词嵌入技术,词汇范围有限,且在不同策略下合作性差,无法泛化到多样化队友,而LLMs可能提供更强的泛化性和人类可解释性。
Method
本研究的方法是更新Codenames AI框架以支持完整游戏规则,并使用LLMs作为代理进行游戏。核心思想是通过特定提示设计,让LLMs扮演codemaster(给出线索)和guesser(猜测单词)的角色。具体步骤包括:
- 为LLMs提供游戏规则提示,包括团队颜色和角色;
- codemaster在给出线索时,必须提供一个单词和数字,提示不能与棋盘单词相关联;
- guesser根据线索选择单词,并决定是否继续猜测;
- 实验中比较了多种LLMs(如GPT-4o、Gemini-1.5等)和传统词向量代理(如Word2Vec、GloVe)在单队(合作)和双队(竞争/合作)游戏版本中的性能。主要创新是通过动态提示和规则约束,评估LLMs的推理和策略适应能力,而不修改模型本身。
Experiment
实验设置包括单队版本(评估完成所有目标单词的回合数)和双队版本(评估胜率),使用随机棋盘设置,共进行100次试验。数据集基于Codenames标准规则,单词板随机生成。实验评估了多种LLMs(如o1-preview、GPT-4o、Gemini-1.5、Sonnet-3.5、Llama-3.1)和词向量代理的性能,测量指标包括平均分数、胜率、损失率、线索数字平均值等。结果显示,LLMs在保持较高准确率的同时,表现出不同的风险策略(例如Sonnet-3.5更冒险,Llama-3.1更谨慎),且LLMs比词向量代理更易与其他代理合作。方法改进明显,因为LLMs在双队版本中胜率更高,实验设置全面合理,考虑了不同角色和团队组合,成果符合预期,突出了LLMs在语言推理和理论心智方面的优势。
Further Thoughts
这项研究启发我们,游戏环境可以作为评估AI智能的多功能平台,不仅能测试LLMs的语言和推理能力,还可扩展到多模态任务(如图片版Codenames)或与其他基准(如MMLU)结合,以探究AI在社会互动中的局限性。例如,LLMs在理论心智方面的表现可能与人类合作游戏中的表现相关联,未来可研究如何将这些洞见应用于真实世界的人机协作场景,或与其他AI代理(如在围棋或扑克中的强化学习模型)比较,以揭示LLMs在策略泛化上的潜力。