本文提出了一种通过分离Jacobian将大型语言模型在特定输入点转化为近乎精确局部线性系统的方法,揭示了模型内部低秩语义结构,并初步探索了输出引导应用,但泛化性和实用性受限。
Large Language Model, Representation Learning, Interpretability, Transformer, Reasoning
James R. Golden
Unaffiliated
Generated by grok-3
Background Problem
大型语言模型(LLMs)基于Transformer解码器架构,尽管其全局上是非线性的复杂函数,但在理解其内部机制和语义表示方面仍存在挑战。本文从图像去噪扩散模型中局部线性化的研究中汲取灵感,试图解决LLMs的可解释性问题,探索如何在不改变模型权重或输出预测的情况下,将其推理过程转化为近乎精确的局部线性系统,以揭示模型内部的语义结构和下一token预测过程中的表示机制。
Method
本文提出了一种通过分离Jacobian(detached Jacobian)实现LLMs局部线性化的方法,核心思想和步骤如下:
- 核心思想:通过对模型前向推理过程中的非线性操作(如RMSNorm、激活函数SwiGLU/GELU/Swish、注意力机制中的softmax)进行梯度分离,冻结非线性项在特定输入点的值,使整个模型在该输入点上的计算等价于一个线性系统。
- 具体实现:
- 对输入序列的嵌入向量计算梯度时,将非线性操作中的非线性部分(如RMSNorm中的方差项、激活函数中的sigmoid项)从计算图中分离(detach),使其值在特定输入点固定为常数。
- 计算分离后的Jacobian矩阵(detached Jacobian),该矩阵捕捉了模型在特定输入点上的完整前向计算,并以线性系统形式重构输出嵌入向量,误差极低(相对误差约为)。
- 通过奇异值分解(SVD)分析分离Jacobian的低秩结构,解码奇异向量以揭示语义概念。
- 关键点与局限:该方法仅在特定输入点有效,输入稍有变化则需重新计算Jacobian,泛化性受限。此外,方法未修改模型本身,仅在推理时操作梯度计算,但计算成本较高,论文未提供优化方案。
Experiment
实验设计和结果如下:
- 数据集与模型:在多个开源LLMs(如Llama 3、Gemma 3、Qwen 3、Phi 4、Mistral Ministral、OLMo 2,参数规模至Llama 3.3 70B Q4)上测试,使用示例输入序列如“The bridge out of Marin is the”。
- 实验设置:验证分离Jacobian是否能近乎精确重构输出嵌入向量(通过比较重构误差),并通过SVD分析低秩结构和语义解码,观察各层及子模块(注意力、MLP)的线性表示。此外,初步测试了分离Jacobian作为概念引导算子的应用。
- 结果分析:
- 重构精度极高,相对误差在(float32精度)至(float16精度)之间,证明了局部线性化的有效性。
- SVD分析显示分离Jacobian具有极低秩结构,解码的奇异向量与输入序列和预测token(如“most”)的语义相关,揭示了模型内部表示的语义结构。
- 层级分析表明语义概念在后期层逐渐浮现,早期层表示不可解释,符合预期。
- 概念引导实验初步显示分离Jacobian可用于输出引导,但结果仅为试点,缺乏系统性评估。
- 评价与不足:实验设置较为基础,验证了方法的可行性,但未全面评估其在不同任务、输入分布上的稳定性,也未深入探讨语义解码结果的实际意义或应用价值。计算成本高昂的问题未被解决,限制了方法的实用性。
Further Thoughts
尽管本文提供了一种新颖的局部线性化视角,但其实际应用价值仍需进一步探索。分离Jacobian方法揭示了LLMs内部表示的低秩结构和语义概念,这与近期关于模型压缩和稀疏激活的研究(如稀疏自编码器)有潜在联系,或许可结合这些方法进一步提高可解释性。此外,概念引导(steering)应用虽有前景,但与现有的RLHF或提示工程相比,其计算成本和效果尚不明确,未来可尝试将其与参数高效微调方法结合,降低计算开销并提升引导精度。另一方面,论文未讨论局部线性化在模型安全性(如检测偏见或毒性内容)中的具体实现路径,这是一个值得深入研究的方向,尤其是在Trustworthy AI领域,可能为模型对齐和安全提供新工具。