Skip to content
Go back 2406.17513 arXiv logo

Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models

Published:  at  11:24 AM
85.90 🤔

本文通过探测和激活编辑实验,系统研究了语言模型内部信念表征的涌现、结构、鲁棒性和可增强性,发现表征随模型规模和微调改善,具有结构化特征但对提示变化脆弱,并可通过对比激活添加(CAA)显著提升ToM性能。

Large Language Model, Reasoning, Probing, Robustness, Human-AI Interaction

Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

University of Stuttgart, Germany

Generated by grok-3

Background Problem

语言模型(LMs)在各种任务中表现出色,但其内部如何表征自我和他人的心理状态(即心智理论,Theory of Mind, ToM)仍是一个未解之谜。理解这些内部机制不仅对提升模型在ToM任务上的表现至关重要,而且对模型对齐和安全性也具有深远意义,因为微妙的心理状态误判可能在生成内容中被忽视。本文旨在解决这一空白,研究信念表征如何在不同规模和训练方式的模型中涌现,是否具有结构化特征,是否对提示变化鲁棒,以及是否可以通过干预增强。

Method

Experiment

Further Thoughts

本文揭示了语言模型在表征他人信念时的脆弱性,这可能与模型对上下文的过度依赖有关,特别是在提示变化时。这种脆弱性在实际应用中可能导致社交推理的不一致或不安全行为,值得进一步研究。未来可以探索是否通过设计更具上下文适应性的训练策略(如多任务学习或动态提示调整)来增强表征鲁棒性。此外,CAA方法虽然高效,但其转向向量是否会在长期使用中导致模型行为的不稳定或偏差积累,仍需更多实验验证。另一个有趣的方向是将本文的探测方法与其他领域(如情感计算)结合,研究模型对其他心理状态(如情感或意图)的表征模式是否呈现类似特征,这可能为构建更全面的社交智能模型提供启示。



Previous Post
Round and Round We Go! What makes Rotary Positional Encodings useful?
Next Post
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models