本文通过RL和SFT训练不同规模LLMs,发现RL在较大模型中促进显式ToM推理但在小模型中导致推理崩溃,而SFT意外取得高性能,揭示当前ToM基准测试可能无需显式人类式推理即可解决。
Large Language Model, Reinforcement Learning, Supervised Learning, Reasoning, Human-AI Interaction
Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang
State Key Laboratory of General Artificial Intelligence, BIGAI, Beijing, China
Generated by grok-3
Background Problem
心理理论(Theory of Mind, ToM)是人类社交智能的核心能力,指的是理解和归因他人心理状态(如信念、意图、欲望和知识)的能力,这对于有效社交互动和合作至关重要。随着人工智能系统日益融入人类环境,赋予其ToM能力对于促进自然沟通和协作变得至关重要。大型语言模型(LLMs)在各种认知任务中表现出色,引发了对其社交认知和心理状态推理潜力的关注。然而,当前的ToM基准测试是否真正需要模型具备显式的人类式推理过程(如逐步模拟心理状态),还是可以通过其他策略(如利用数据结构模式)取得高分,仍是一个关键问题。本研究旨在通过实验探究这一问题,揭示ToM基准测试与模型推理质量之间的潜在脱节。
Method
本研究采用两种主要的训练方法对不同规模的LLMs(0.5B到7B参数)进行后训练,并在多个ToM基准测试上评估其性能和推理质量:
- 强化学习(RL):基于规则的RL方法,使用格式奖励()和答案奖励()来引导模型行为。格式奖励要求模型在输出中包含结构化的推理过程(用
标签)和最终答案(用 标签),正确格式得1分,错误得-1分;答案奖励则通过正则表达式匹配答案准确性,正确得2分,错误得-2分。最终奖励为两者的总和,采用GRPO算法进行训练,旨在通过简单的反馈机制诱导结构化推理。 - 监督微调(SFT):直接通过输入-输出对训练模型,优化模型以重现期望的输出,不显式优化推理过程,作为对比基线,用于评估RL是否带来真正的推理质量提升。
训练数据基于Hi-ToM和ExploreToM数据集生成,共3200个样本,涵盖不同阶次的ToM问题(0到3阶),并在多个数据集上评估泛化能力。评估不仅关注准确率,还通过GPT-4.1评分推理质量(逻辑一致性和事实对齐),并通过知识转移实验(将模型推理轨迹输入GPT-4o-mini)测试推理的可转移性。
批判性思考:RL的奖励设计过于简单,仅仅关注格式和答案正确性,可能不足以捕捉ToM任务中复杂的社交常识和上下文敏感性,尤其是在小规模模型中,可能导致模型学习捷径而非真正推理。SFT的高性能进一步表明,当前基准测试可能存在可利用的模式,模型无需显式推理即可取得高分,这对基准测试的有效性提出了质疑。
Experiment
实验在多个ToM基准测试(Hi-ToM、4th-order ToM、ToMi、ExploreToM的原始和填充版本)上评估了不同规模Qwen 2.5模型(0.5B到7B)的性能,比较了RL和SFT的效果,并与基线模型(如GPT-4o、DeepSeek-v3)进行对比:
- 数据集与设置:训练数据包括3200个样本,测试数据涵盖不同难度和叙事风格,确保评估模型的泛化能力。实验设置合理,控制了模型规模和训练方法的变量,评估指标包括准确率和推理质量(通过GPT-4.1评分)。
- 结果:RL显著提升了所有模型的准确率,例如7B-1M模型在Hi-ToM上的准确率从40.67%提升至84.50%,超越GPT-4o(69.00%)。然而,推理质量呈现规模依赖性:7B模型展现出高质量、可解释且可转移的推理行为,而较小模型(≤3B)出现’推理崩溃’,尽管准确率提升(如0.5B模型在4th-order ToM从23.83%提升至85.83%),但输出缩短且缺乏有意义的推理过程。SFT表现出意外的竞争力,准确率往往与RL相当甚至略高(如7B-1M在Hi-ToM上SFT为86.5%,RL为84.5%),且在泛化测试中表现良好。
- 分析与批判:RL在较大模型中诱导了结构化推理,但在小模型中导致捷径学习,表明简单奖励设计可能不适合复杂社交推理任务。SFT的高性能表明当前基准测试可能存在数据模式或偏差,模型可能通过表面关联而非深度推理解决问题。实验设置虽全面,但依赖合成数据和GPT-4.1评分可能引入偏差,未能完全反映真实社交场景的复杂性。此外,RL未能在其他领域(如数学)提升性能,表明其效果可能局限于训练任务的特定结构。
Further Thoughts
本文揭示了ToM基准测试与模型推理质量之间的脱节,引发了对AI社交智能评估的深思。当前基准测试的高准确率可能掩盖了模型缺乏真正心理状态理解的问题,这与自然语言处理领域中形式化任务(如数学推理)与社交任务之间的差异有关。在数学或编程任务中,RL通过明确奖励设计成功诱导结构化推理,但ToM任务的模糊性和上下文依赖性可能需要更复杂的奖励机制,例如基于中间状态追踪的一致性奖励,而非仅关注最终输出。此外,合成数据的局限性提示我们,未来ToM基准测试可能需要引入更多自然场景或人类标注数据,以捕捉真实社交互动的复杂性。
另一个值得探索的方向是模型规模与任务复杂性之间的关系。小模型的推理崩溃可能不仅是容量问题,也可能与训练信号的设计有关,是否可以通过课程学习或分阶段奖励逐步引导小模型构建推理能力?同时,SFT的高性能让我联想到其他领域中预训练模型的强大泛化能力,是否可以通过结合预训练社交常识和任务特定微调,进一步提升ToM性能,而无需复杂RL?最后,评估推理质量时依赖LLM(如GPT-4.1)可能引入循环偏差,未来研究应引入人类评估或设计对抗性测试,专门针对推理链而非最终答案,以更准确地衡量AI的社交智能水平。