Skip to content
Go back 2505.24293 arXiv logo

Large Language Models are Locally Linear Mappings

Published:  at  11:44 AM
85.46 🤔

本文提出了一种通过分离Jacobian将大型语言模型在特定输入点转化为近乎精确局部线性系统的方法,揭示了模型内部低秩语义结构,并初步探索了输出引导应用,但泛化性和实用性受限。

Large Language Model, Representation Learning, Interpretability, Transformer, Reasoning

James R. Golden

Unaffiliated

Generated by grok-3

Background Problem

大型语言模型(LLMs)基于Transformer解码器架构,尽管其全局上是非线性的复杂函数,但在理解其内部机制和语义表示方面仍存在挑战。本文从图像去噪扩散模型中局部线性化的研究中汲取灵感,试图解决LLMs的可解释性问题,探索如何在不改变模型权重或输出预测的情况下,将其推理过程转化为近乎精确的局部线性系统,以揭示模型内部的语义结构和下一token预测过程中的表示机制。

Method

本文提出了一种通过分离Jacobian(detached Jacobian)实现LLMs局部线性化的方法,核心思想和步骤如下:

Experiment

实验设计和结果如下:

Further Thoughts

尽管本文提供了一种新颖的局部线性化视角,但其实际应用价值仍需进一步探索。分离Jacobian方法揭示了LLMs内部表示的低秩结构和语义概念,这与近期关于模型压缩和稀疏激活的研究(如稀疏自编码器)有潜在联系,或许可结合这些方法进一步提高可解释性。此外,概念引导(steering)应用虽有前景,但与现有的RLHF或提示工程相比,其计算成本和效果尚不明确,未来可尝试将其与参数高效微调方法结合,降低计算开销并提升引导精度。另一方面,论文未讨论局部线性化在模型安全性(如检测偏见或毒性内容)中的具体实现路径,这是一个值得深入研究的方向,尤其是在Trustworthy AI领域,可能为模型对齐和安全提供新工具。



Previous Post
LoKI: Low-damage Knowledge Implanting of Large Language Models
Next Post
RAISE: Reinforced Adaptive Instruction Selection For Large Language Models