Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs

本文通过层级上下文掩码和跨任务补丁方法，验证了大型语言模型内部存在‘内部思维链’，即在不同网络深度学习并按序执行复合任务的子任务，从而提升了模型透明度并为指令级行为控制开辟了新路径。

Large Language Model, In-Context Learning, Reasoning, Interpretability, Representation Learning

Zhipeng Yang, Junzhuo Li, Siyu Xia, Xuming Hu

The Hong Kong University of Science and Technology (Guangzhou), Southeast University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在处理复杂任务（如指令跟随和多步骤问题解决）方面表现出色，但其内部是否像显式‘思维链’（Chain of Thought）那样进行多步骤推理仍是一个未解之谜。本文提出并验证了‘内部思维链’（Internal Chain-of-Thought, ICoT）的概念，即LLMs能够在内部将复合任务分解为子任务，并在不同网络层按序处理这些子任务。这一研究旨在解决模型内部计算过程的不透明性问题，探索子任务如何在模型深度中分布和执行，为提升模型透明度和实现精细化行为控制（如指令级干预）奠定基础。

Method

本文提出了两个核心主张，并通过以下方法进行验证：

主张1：子任务在不同网络深度学习
使用了**层级上下文掩码（Layer-from Context-Masking）方法，通过从特定层开始屏蔽对上下文示例的注意力，观察模型在不同层学习子任务的动态。此外，提出了一种新颖的跨任务补丁（Cross-Task Patching）**方法，将复合任务的残差激活插入到零-shot子任务查询中，以检测可复用的‘子任务向量’是否在不同深度形成。
主张2：子任务在层间按序执行
采用LogitLens方法解码每一层的隐藏状态，投影到词汇空间，追踪中间结果和最终结果的平均倒数排名（Mean Reciprocal Rank, MRR），以揭示层级执行模式。

核心思想在于通过干预和解码技术，揭示LLMs内部如何分解和处理复合任务，强调学习和执行的阶段性分离。然而，跨任务补丁方法的结果显示出子任务向量强度的不对称性，可能表明某些子任务表示高度依赖上下文，方法的普适性值得进一步验证。

Experiment

实验设计围绕一个包含15个两步骤复合任务的基准数据集，涵盖知识-算法、提取-知识等四类任务，测试了四个中型开源模型（3B-8B参数，如Llama-3.1-8B、Mistral-7B）。

层级上下文掩码：结果显示出明显的‘X形’模式，表明模型在早期层学习第一个子任务，在较深层学习第二个子任务，验证了子任务学习的分阶段性。然而，任务设计较为刻意，可能导致学习点的分离过于明显，未必反映真实任务的复杂性。
跨任务补丁：在Llama-3.1-8B上，子任务向量平均强度为0.66，但存在不对称性（如某些任务s1强度高而s2低），可能反映子任务类型或上下文依赖的影响，实验未深入探讨这一现象的原因。
LogitLens解码：揭示了中间结果在中层达到峰值，随后被最终结果在更深层超越的模式，支持层级执行的假设。
TRACE基准测试：在真实世界指令跟随数据集上重复上下文掩码实验，发现不同约束类型（如输出格式）在不同层深度学习，部分验证了方法的适用性，但学习动态更为交织，表明复杂任务可能削弱方法的清晰度。

总体评价：实验设置较为全面，但任务构造偏向简单二步分解，可能存在人为设计偏差；结果基本符合预期，但未充分解决子任务向量不对称性和复杂任务中的交织动态问题，推广性存疑。

Further Thoughts

本文提出的‘内部思维链’概念为LLMs的可解释性研究提供了新视角，尤其是在理解模型如何处理复合任务方面。然而，实验中观察到的子任务向量不对称性和TRACE数据集上的交织动态提示我们，真实世界任务的复杂性可能远超论文设计的基准。进一步研究可以探索更大规模模型（如GPT-4）上的ICoT现象，验证是否因架构或训练数据差异而产生不同模式。此外，ICoT与模型安全性的潜在联系值得深入挖掘，例如通过识别特定指令的处理层进行干预，可能为防止有害输出提供新方法，但这需要结合RLHF（强化学习与人类反馈）等对齐技术进行更系统的测试，以确保干预的有效性和安全性。