本文通过探测和激活编辑实验,系统研究了语言模型内部信念表征的涌现、结构、鲁棒性和可增强性,发现表征随模型规模和微调改善,具有结构化特征但对提示变化脆弱,并可通过对比激活添加(CAA)显著提升ToM性能。
Large Language Model, Reasoning, Probing, Robustness, Human-AI Interaction
Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling
University of Stuttgart, Germany
Generated by grok-3
Background Problem
语言模型(LMs)在各种任务中表现出色,但其内部如何表征自我和他人的心理状态(即心智理论,Theory of Mind, ToM)仍是一个未解之谜。理解这些内部机制不仅对提升模型在ToM任务上的表现至关重要,而且对模型对齐和安全性也具有深远意义,因为微妙的心理状态误判可能在生成内容中被忽视。本文旨在解决这一空白,研究信念表征如何在不同规模和训练方式的模型中涌现,是否具有结构化特征,是否对提示变化鲁棒,以及是否可以通过干预增强。
Method
- 核心思想:通过探测(probing)和激活编辑(activation editing)方法,系统分析语言模型内部的信念表征,探索其涌现模式、结构特性、鲁棒性及可增强性。
- 具体步骤:
- 探测实验:使用线性探测器从模型的残差流激活中解码信念状态,针对不同视角(主角和全知视角)进行训练和评估,研究信念表征如何随模型规模和微调变化(RQ1)。
- 控制任务:通过随机标签和主成分分析(PCA)减少探测器参数,验证信念表征是否为结构化的,而非数据中的伪相关(RQ2)。
- 鲁棒性测试:设计四种提示变体(随机、误导、时间指定、初始信念),评估信念表征对提示变化的敏感性(RQ3)。
- 激活编辑:采用对比激活添加(CAA)方法,通过计算正负实例激活的平均差异生成转向向量(steering vectors),在推理时注入模型激活以增强ToM性能(RQ4)。
- 关键点与批评:探测方法虽然直观,但可能过于依赖线性假设,忽略了信念表征的非线性复杂性。CAA方法计算成本低且效果显著,但其转向向量的泛化性和长期稳定性未被充分探讨,可能仅对特定任务有效。此外,提示变体的设计虽然有一定代表性,但未能涵盖更广泛的语义或上下文变化,可能低估了鲁棒性问题。
Experiment
- 数据集:使用BigToM数据集,包含基于因果模板构建的问答任务,聚焦于前向信念(Forward Belief)设置,评估模型推断主角信念的能力。
- 实验设置:研究了12个语言模型(包括Pythia和Llama-2系列),涵盖不同规模和微调方式(SFT和RLHF)。探测实验分析信念表征的涌现和结构,鲁棒性测试评估提示变体影响,激活编辑实验比较无干预、ITI和CAA方法的ToM任务性能。
- 结果与分析:
- 模型规模和微调显著提升信念表征的探测准确率,尤其在较小模型中,微调带来的提升高达+29%(如Llama-2-7B-chat)。
- 控制任务表明信念表征是结构化的,而非伪相关,因为随机标签探测准确率接近随机水平,且主成分分析后仍保留大部分准确率。
- 鲁棒性测试显示,全知视角的信念表征较为稳健,而他人信念表征对提示变体(如误导和随机提示)非常脆弱,准确率显著下降。
- CAA方法在所有ToM任务中表现出色,准确率提升最高达+56%(如Llama-2-13B-chat在Backward Belief任务),且计算成本低于ITI,转向向量在不同任务间具有一定泛化性。
- 评价与批评:实验设置较为系统,但数据集单一(仅BigToM)可能限制结果的普适性。提示变体的选择虽有逻辑,但未能充分模拟真实应用中的复杂语境变化。CAA的效果令人印象深刻,但其提升是否可持续,以及是否会引入新的偏差或不稳定性,论文未深入探讨。实验结果与预期一致,但对鲁棒性问题的解决策略仍显不足。
Further Thoughts
本文揭示了语言模型在表征他人信念时的脆弱性,这可能与模型对上下文的过度依赖有关,特别是在提示变化时。这种脆弱性在实际应用中可能导致社交推理的不一致或不安全行为,值得进一步研究。未来可以探索是否通过设计更具上下文适应性的训练策略(如多任务学习或动态提示调整)来增强表征鲁棒性。此外,CAA方法虽然高效,但其转向向量是否会在长期使用中导致模型行为的不稳定或偏差积累,仍需更多实验验证。另一个有趣的方向是将本文的探测方法与其他领域(如情感计算)结合,研究模型对其他心理状态(如情感或意图)的表征模式是否呈现类似特征,这可能为构建更全面的社交智能模型提供启示。