本文通过层级上下文掩码和跨任务补丁方法,验证了大型语言模型内部存在‘内部思维链’,即在不同网络深度学习并按序执行复合任务的子任务,从而提升了模型透明度并为指令级行为控制开辟了新路径。
Large Language Model, In-Context Learning, Reasoning, Interpretability, Representation Learning
Zhipeng Yang, Junzhuo Li, Siyu Xia, Xuming Hu
The Hong Kong University of Science and Technology (Guangzhou), Southeast University
Generated by grok-3
Background Problem
大型语言模型(LLMs)在处理复杂任务(如指令跟随和多步骤问题解决)方面表现出色,但其内部是否像显式‘思维链’(Chain of Thought)那样进行多步骤推理仍是一个未解之谜。本文提出并验证了‘内部思维链’(Internal Chain-of-Thought, ICoT)的概念,即LLMs能够在内部将复合任务分解为子任务,并在不同网络层按序处理这些子任务。这一研究旨在解决模型内部计算过程的不透明性问题,探索子任务如何在模型深度中分布和执行,为提升模型透明度和实现精细化行为控制(如指令级干预)奠定基础。
Method
本文提出了两个核心主张,并通过以下方法进行验证:
- 主张1:子任务在不同网络深度学习
使用了**层级上下文掩码(Layer-from Context-Masking)方法,通过从特定层开始屏蔽对上下文示例的注意力,观察模型在不同层学习子任务的动态。此外,提出了一种新颖的跨任务补丁(Cross-Task Patching)**方法,将复合任务的残差激活插入到零-shot子任务查询中,以检测可复用的‘子任务向量’是否在不同深度形成。 - 主张2:子任务在层间按序执行
采用LogitLens方法解码每一层的隐藏状态,投影到词汇空间,追踪中间结果和最终结果的平均倒数排名(Mean Reciprocal Rank, MRR),以揭示层级执行模式。
核心思想在于通过干预和解码技术,揭示LLMs内部如何分解和处理复合任务,强调学习和执行的阶段性分离。然而,跨任务补丁方法的结果显示出子任务向量强度的不对称性,可能表明某些子任务表示高度依赖上下文,方法的普适性值得进一步验证。
Experiment
实验设计围绕一个包含15个两步骤复合任务的基准数据集,涵盖知识-算法、提取-知识等四类任务,测试了四个中型开源模型(3B-8B参数,如Llama-3.1-8B、Mistral-7B)。
- 层级上下文掩码:结果显示出明显的‘X形’模式,表明模型在早期层学习第一个子任务,在较深层学习第二个子任务,验证了子任务学习的分阶段性。然而,任务设计较为刻意,可能导致学习点的分离过于明显,未必反映真实任务的复杂性。
- 跨任务补丁:在Llama-3.1-8B上,子任务向量平均强度为0.66,但存在不对称性(如某些任务s1强度高而s2低),可能反映子任务类型或上下文依赖的影响,实验未深入探讨这一现象的原因。
- LogitLens解码:揭示了中间结果在中层达到峰值,随后被最终结果在更深层超越的模式,支持层级执行的假设。
- TRACE基准测试:在真实世界指令跟随数据集上重复上下文掩码实验,发现不同约束类型(如输出格式)在不同层深度学习,部分验证了方法的适用性,但学习动态更为交织,表明复杂任务可能削弱方法的清晰度。
总体评价:实验设置较为全面,但任务构造偏向简单二步分解,可能存在人为设计偏差;结果基本符合预期,但未充分解决子任务向量不对称性和复杂任务中的交织动态问题,推广性存疑。
Further Thoughts
本文提出的‘内部思维链’概念为LLMs的可解释性研究提供了新视角,尤其是在理解模型如何处理复合任务方面。然而,实验中观察到的子任务向量不对称性和TRACE数据集上的交织动态提示我们,真实世界任务的复杂性可能远超论文设计的基准。进一步研究可以探索更大规模模型(如GPT-4)上的ICoT现象,验证是否因架构或训练数据差异而产生不同模式。此外,ICoT与模型安全性的潜在联系值得深入挖掘,例如通过识别特定指令的处理层进行干预,可能为防止有害输出提供新方法,但这需要结合RLHF(强化学习与人类反馈)等对齐技术进行更系统的测试,以确保干预的有效性和安全性。