Skip to content
Go back 2412.11373 arXiv logo

Codenames as a Benchmark for Large Language Models

Published:  at  04:27 PM
77.18 👍

本论文提出使用Codenames游戏作为LLMs推理能力的基准,通过实验评估不同LLMs在语言理解、战略推理和合作方面的表现,展示了它们的独特行为和泛化潜力。

Large Language Model, Reasoning, Human-AI Interaction, Multimodal Systems, In-Context Learning

Matthew Stephenson, Matthew Sidji, Benoît Ronval

Flinders University, University of Melbourne, UCLouvain

Generated by grok-3-mini-latest

Background Problem

本研究的出发点是探索一种适合评估大型语言模型(LLMs)推理能力的基准测试工具。背景问题在于,LLMs在语言任务上取得了快速进展,但传统AI基准如国际象棋或围棋更侧重空间推理和战略规划,而LLMs在这些领域的表现较弱。Codenames作为一款基于语言的合作游戏,强调自然语言理解、理论心智(theory of mind)和认识论推理(epistemic reasoning),能够更好地测试LLMs的语言中心能力。该工作解决了之前Codenames AI框架的简化问题,例如早期方法依赖词嵌入技术,词汇范围有限,且在不同策略下合作性差,无法泛化到多样化队友,而LLMs可能提供更强的泛化性和人类可解释性。

Method

本研究的方法是更新Codenames AI框架以支持完整游戏规则,并使用LLMs作为代理进行游戏。核心思想是通过特定提示设计,让LLMs扮演codemaster(给出线索)和guesser(猜测单词)的角色。具体步骤包括:

Experiment

实验设置包括单队版本(评估完成所有目标单词的回合数)和双队版本(评估胜率),使用随机棋盘设置,共进行100次试验。数据集基于Codenames标准规则,单词板随机生成。实验评估了多种LLMs(如o1-preview、GPT-4o、Gemini-1.5、Sonnet-3.5、Llama-3.1)和词向量代理的性能,测量指标包括平均分数、胜率、损失率、线索数字平均值等。结果显示,LLMs在保持较高准确率的同时,表现出不同的风险策略(例如Sonnet-3.5更冒险,Llama-3.1更谨慎),且LLMs比词向量代理更易与其他代理合作。方法改进明显,因为LLMs在双队版本中胜率更高,实验设置全面合理,考虑了不同角色和团队组合,成果符合预期,突出了LLMs在语言推理和理论心智方面的优势。

Further Thoughts

这项研究启发我们,游戏环境可以作为评估AI智能的多功能平台,不仅能测试LLMs的语言和推理能力,还可扩展到多模态任务(如图片版Codenames)或与其他基准(如MMLU)结合,以探究AI在社会互动中的局限性。例如,LLMs在理论心智方面的表现可能与人类合作游戏中的表现相关联,未来可研究如何将这些洞见应用于真实世界的人机协作场景,或与其他AI代理(如在围棋或扑克中的强化学习模型)比较,以揭示LLMs在策略泛化上的潜力。



Previous Post
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
Next Post
Constraint Back-translation Improves Complex Instruction Following of Large Language Models