I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

本文通过潜在变量模型和可识别性分析，证明大型语言模型通过下一词预测学习的表示近似为潜在概念后验概率对数的线性变换，支持线性表示假设，并提出结构化稀疏自编码器改进概念提取效果。

Large Language Model, Representation Learning, Reasoning, Generative Modeling, Interpretability

Yuhang Liu, Dong Gong, Yichao Cai, Erdun Gao, Zhen Zhang, Biwei Huang, Mingming Gong, Anton van den Hengel, Javen Qinfeng Shi

The University of Adelaide, The University of New South Wales, University of California San Diego, The University of Melbourne

Generated by grok-3

Background Problem

大型语言模型（LLMs）在多种下游任务中表现出色，引发了对其能力来源的争论：它们是否仅通过对海量数据的简单操作实现性能，还是展现了某种形式的智能，即学习到了数据背后的生成因素？本文从这一问题出发，探讨LLMs是否能通过下一词预测任务学习到人类可解释的概念，挑战其仅为记忆系统的观点，并试图通过理论和实验证明LLMs的表示能够捕捉潜在的生成概念。

Method

本文提出了一种基于潜在变量的生成模型，将人类可解释的概念建模为离散潜在变量，并通过下一词预测框架进行分析。具体方法如下：

潜在变量模型：假设潜在变量 $c$ 表示人类可解释的概念，观测变量 $x$ 和 $y$ 表示输入上下文和输出词，通过生成模型 $p(x, y) = \sum_c p(x|c)p(y|c)p(c)$ 描述数据生成过程。模型不要求潜在到观测的映射可逆，引入误差项 $ϵ$ 定义近似可逆性。
可识别性分析：在下一词预测框架下，通过多样性条件（Diversity Condition）证明LLM学习的表示 $f_x(x)$ 近似为潜在变量后验概率对数 $[log p(c=c^i|x)]_{c^i}$ 的线性变换，即 $f_x(x) hickapprox A [log p(c=c^i|x)]_{c^i} + b$ 。
线性表示假设支持：基于上述结果，解释了LLM中概念作为方向、概念可操控性和线性探针等现象，并提出统一框架。
稀疏自编码器（SAE）改进：提出结构化SAE，通过低秩正则化结合稀疏性正则化，考虑潜在概念间的依赖性，优化目标为 $\mathcal{L} = ext{重建损失} + ext{稀疏性惩罚} + ext{低秩惩罚}$ 。

批判性思考：潜在变量模型的离散假设可能过于简化，忽略了语义表示的连续性；多样性条件在理论上合理，但在真实语言数据中的适用性存疑；结构化SAE的低秩正则化作用机制未明确，可能仅为参数调整带来的改进。

Experiment

实验分为模拟数据和真实LLM数据两部分：

模拟数据实验：通过随机有向无环图（DAG）生成潜在变量，使用伯努利分布模拟条件概率，并通过非线性混合生成观测数据。结果显示，随着观测变量数量增加（即映射更接近可逆），分类准确率提高，符合理论预测；不同图结构下结果一致，但模拟数据过于简单，未反映真实语言复杂性。
真实LLM实验：在Pythia、Llama和DeepSeek模型家族上，使用27个反事实对（基于Big Analogy Test数据集）验证线性表示假设。结果显示特征差异矩阵 $A^s$ 和线性分类器权重矩阵 $W^s$ 的乘积近似单位矩阵，支持理论推导。但样本量较小，未探讨模型或数据集的鲁棒性。
结构化SAE实验：在Pythia模型上训练四种SAE变体（包括提出的结构化SAE），使用27个反事实对评估特征与概念后验概率的相关性。结构化SAE在相关性和重建损失上表现优于其他变体，但低秩正则化的具体贡献未深入分析。

批判性思考：模拟实验过于理想化，真实数据实验样本量有限，未能全面验证理论结果的普适性；结构化SAE的改进效果可能受超参数影响，缺乏机制性解释。

Further Thoughts

本文提出的可识别性分析为理解LLM的学习机制提供了一个有趣的理论视角，但其离散潜在变量假设可能限制了对复杂语义表示的建模。未来研究可以探索混合模型（离散与连续结合）以更贴近真实语言数据。此外，结构化SAE的低秩正则化思路启发我们思考潜在概念间的依赖性，这与因果表示学习领域的研究有潜在联系，例如是否可以通过因果图结构进一步约束SAE的解空间？同时，论文未充分探讨LLM在不同任务或文化背景下的概念表示差异，这可能是验证其理论普适性的重要方向。另一个值得思考的点是，线性表示假设的支持是否仅限于某些特定概念（如二元概念），对于更复杂的多值或动态概念是否仍然成立？这些问题值得结合更大规模的跨模型、跨数据集实验进一步研究。