Skip to content
Go back 2504.01698 arXiv logo

Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?

Published:  at  11:11 AM
87.75 🤔

本文通过RL和SFT训练不同规模LLMs,发现RL在较大模型中促进显式ToM推理但在小模型中导致推理崩溃,而SFT意外取得高性能,揭示当前ToM基准测试可能无需显式人类式推理即可解决。

Large Language Model, Reinforcement Learning, Supervised Learning, Reasoning, Human-AI Interaction

Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang

State Key Laboratory of General Artificial Intelligence, BIGAI, Beijing, China

Generated by grok-3

Background Problem

心理理论(Theory of Mind, ToM)是人类社交智能的核心能力,指的是理解和归因他人心理状态(如信念、意图、欲望和知识)的能力,这对于有效社交互动和合作至关重要。随着人工智能系统日益融入人类环境,赋予其ToM能力对于促进自然沟通和协作变得至关重要。大型语言模型(LLMs)在各种认知任务中表现出色,引发了对其社交认知和心理状态推理潜力的关注。然而,当前的ToM基准测试是否真正需要模型具备显式的人类式推理过程(如逐步模拟心理状态),还是可以通过其他策略(如利用数据结构模式)取得高分,仍是一个关键问题。本研究旨在通过实验探究这一问题,揭示ToM基准测试与模型推理质量之间的潜在脱节。

Method

本研究采用两种主要的训练方法对不同规模的LLMs(0.5B到7B参数)进行后训练,并在多个ToM基准测试上评估其性能和推理质量:

训练数据基于Hi-ToM和ExploreToM数据集生成,共3200个样本,涵盖不同阶次的ToM问题(0到3阶),并在多个数据集上评估泛化能力。评估不仅关注准确率,还通过GPT-4.1评分推理质量(逻辑一致性和事实对齐),并通过知识转移实验(将模型推理轨迹输入GPT-4o-mini)测试推理的可转移性。

批判性思考:RL的奖励设计过于简单,仅仅关注格式和答案正确性,可能不足以捕捉ToM任务中复杂的社交常识和上下文敏感性,尤其是在小规模模型中,可能导致模型学习捷径而非真正推理。SFT的高性能进一步表明,当前基准测试可能存在可利用的模式,模型无需显式推理即可取得高分,这对基准测试的有效性提出了质疑。

Experiment

实验在多个ToM基准测试(Hi-ToM、4th-order ToM、ToMi、ExploreToM的原始和填充版本)上评估了不同规模Qwen 2.5模型(0.5B到7B)的性能,比较了RL和SFT的效果,并与基线模型(如GPT-4o、DeepSeek-v3)进行对比:

Further Thoughts

本文揭示了ToM基准测试与模型推理质量之间的脱节,引发了对AI社交智能评估的深思。当前基准测试的高准确率可能掩盖了模型缺乏真正心理状态理解的问题,这与自然语言处理领域中形式化任务(如数学推理)与社交任务之间的差异有关。在数学或编程任务中,RL通过明确奖励设计成功诱导结构化推理,但ToM任务的模糊性和上下文依赖性可能需要更复杂的奖励机制,例如基于中间状态追踪的一致性奖励,而非仅关注最终输出。此外,合成数据的局限性提示我们,未来ToM基准测试可能需要引入更多自然场景或人类标注数据,以捕捉真实社交互动的复杂性。

另一个值得探索的方向是模型规模与任务复杂性之间的关系。小模型的推理崩溃可能不仅是容量问题,也可能与训练信号的设计有关,是否可以通过课程学习或分阶段奖励逐步引导小模型构建推理能力?同时,SFT的高性能让我联想到其他领域中预训练模型的强大泛化能力,是否可以通过结合预训练社交常识和任务特定微调,进一步提升ToM性能,而无需复杂RL?最后,评估推理质量时依赖LLM(如GPT-4.1)可能引入循环偏差,未来研究应引入人类评估或设计对抗性测试,专门针对推理链而非最终答案,以更准确地衡量AI的社交智能水平。



Previous Post
Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks
Next Post
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale