Skip to content
Go back 2505.17120 arXiv logo

Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training

Published:  at  11:15 AM
86.28 🤔

本文通过微调GPT-4o和GPT-4o-mini,展示了大型语言模型能够量化报告其内部决策过程(如属性权重),并通过内省训练显著提升报告准确性,且这种能力可泛化至原生偏好,为AI可解释性和安全性提供了新路径。

Large Language Model, Fine-tuning, Interpretability, Reasoning, Human-AI Interaction

Dillon Plunkett, Adam Morris, Keerthi Reddy, Jorge Morales

Northeastern University, Princeton University, Independent Researcher

Generated by grok-3

Background Problem

大型语言模型(LLMs)的内部运作机制对人类而言是不透明的,这限制了我们对其行为的理解和控制能力,尤其是在防止偏差、提升可信度和确保安全部署等方面。本文试图解决这一问题,探索LLMs是否能够通过自我解释来揭示其内部决策过程,特别是量化地描述驱动其决策的复杂因素,并通过训练提升这种能力,从而为AI可解释性和安全性提供新的工具。

Method

本文提出了一种通过微调来测试和提升LLMs自我解释能力的方法:

Experiment

实验分为三个部分,基于GPT-4o和GPT-4o-mini模型:

Further Thoughts

本文的研究为AI可解释性开辟了一个有趣的方向,但也引发了一些深层次的问题。自我报告能力的提升是否可能被用于掩盖模型的真实意图,例如在安全关键场景中生成看似合理的解释来误导用户?此外,如果内省训练能泛化到更多内部过程,是否可以与其他可解释性方法(如机械式解释)结合,形成多层次的模型理解框架?与人类认知研究的对比也值得进一步探索:论文提到模型的自我报告准确性(r≈0.74-0.75)接近人类最高水平(r≈0.80),这是否意味着LLMs在某些决策解释任务上已接近人类能力极限?最后,我认为未来研究应关注内省机制的本质,是否可以通过神经网络激活模式分析来验证模型是否真正‘内省’,而非仅仅是训练导致的表面行为。这将对AI安全和信任构建产生深远影响。



Previous Post
Small Models, Smarter Learning: The Power of Joint Task Training
Next Post
Belief Injection for Epistemic Control in Linguistic State Space