Skip to content
Go back 2503.08980 arXiv logo

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Published:  at  11:22 AM
74.26 🤔

本文通过潜在变量模型和可识别性分析,证明大型语言模型通过下一词预测学习的表示近似为潜在概念后验概率对数的线性变换,支持线性表示假设,并提出结构化稀疏自编码器改进概念提取效果。

Large Language Model, Representation Learning, Reasoning, Generative Modeling, Interpretability

Yuhang Liu, Dong Gong, Yichao Cai, Erdun Gao, Zhen Zhang, Biwei Huang, Mingming Gong, Anton van den Hengel, Javen Qinfeng Shi

The University of Adelaide, The University of New South Wales, University of California San Diego, The University of Melbourne

Generated by grok-3

Background Problem

大型语言模型(LLMs)在多种下游任务中表现出色,引发了对其能力来源的争论:它们是否仅通过对海量数据的简单操作实现性能,还是展现了某种形式的智能,即学习到了数据背后的生成因素?本文从这一问题出发,探讨LLMs是否能通过下一词预测任务学习到人类可解释的概念,挑战其仅为记忆系统的观点,并试图通过理论和实验证明LLMs的表示能够捕捉潜在的生成概念。

Method

本文提出了一种基于潜在变量的生成模型,将人类可解释的概念建模为离散潜在变量,并通过下一词预测框架进行分析。具体方法如下:

批判性思考:潜在变量模型的离散假设可能过于简化,忽略了语义表示的连续性;多样性条件在理论上合理,但在真实语言数据中的适用性存疑;结构化SAE的低秩正则化作用机制未明确,可能仅为参数调整带来的改进。

Experiment

实验分为模拟数据和真实LLM数据两部分:

批判性思考:模拟实验过于理想化,真实数据实验样本量有限,未能全面验证理论结果的普适性;结构化SAE的改进效果可能受超参数影响,缺乏机制性解释。

Further Thoughts

本文提出的可识别性分析为理解LLM的学习机制提供了一个有趣的理论视角,但其离散潜在变量假设可能限制了对复杂语义表示的建模。未来研究可以探索混合模型(离散与连续结合)以更贴近真实语言数据。此外,结构化SAE的低秩正则化思路启发我们思考潜在概念间的依赖性,这与因果表示学习领域的研究有潜在联系,例如是否可以通过因果图结构进一步约束SAE的解空间?同时,论文未充分探讨LLM在不同任务或文化背景下的概念表示差异,这可能是验证其理论普适性的重要方向。另一个值得思考的点是,线性表示假设的支持是否仅限于某些特定概念(如二元概念),对于更复杂的多值或动态概念是否仍然成立?这些问题值得结合更大规模的跨模型、跨数据集实验进一步研究。



Previous Post
Racing Thoughts: Explaining Contextualization Errors in Large Language Models
Next Post
Looped Transformers for Length Generalization