Skip to content
Go back 2505.14530 arXiv logo

Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs

Published:  at  11:09 AM
88.75 🤔

本文通过层级上下文掩码和跨任务补丁方法,验证了大型语言模型内部存在‘内部思维链’,即在不同网络深度学习并按序执行复合任务的子任务,从而提升了模型透明度并为指令级行为控制开辟了新路径。

Large Language Model, In-Context Learning, Reasoning, Interpretability, Representation Learning

Zhipeng Yang, Junzhuo Li, Siyu Xia, Xuming Hu

The Hong Kong University of Science and Technology (Guangzhou), Southeast University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在处理复杂任务(如指令跟随和多步骤问题解决)方面表现出色,但其内部是否像显式‘思维链’(Chain of Thought)那样进行多步骤推理仍是一个未解之谜。本文提出并验证了‘内部思维链’(Internal Chain-of-Thought, ICoT)的概念,即LLMs能够在内部将复合任务分解为子任务,并在不同网络层按序处理这些子任务。这一研究旨在解决模型内部计算过程的不透明性问题,探索子任务如何在模型深度中分布和执行,为提升模型透明度和实现精细化行为控制(如指令级干预)奠定基础。

Method

本文提出了两个核心主张,并通过以下方法进行验证:

核心思想在于通过干预和解码技术,揭示LLMs内部如何分解和处理复合任务,强调学习和执行的阶段性分离。然而,跨任务补丁方法的结果显示出子任务向量强度的不对称性,可能表明某些子任务表示高度依赖上下文,方法的普适性值得进一步验证。

Experiment

实验设计围绕一个包含15个两步骤复合任务的基准数据集,涵盖知识-算法、提取-知识等四类任务,测试了四个中型开源模型(3B-8B参数,如Llama-3.1-8B、Mistral-7B)。

总体评价:实验设置较为全面,但任务构造偏向简单二步分解,可能存在人为设计偏差;结果基本符合预期,但未充分解决子任务向量不对称性和复杂任务中的交织动态问题,推广性存疑。

Further Thoughts

本文提出的‘内部思维链’概念为LLMs的可解释性研究提供了新视角,尤其是在理解模型如何处理复合任务方面。然而,实验中观察到的子任务向量不对称性和TRACE数据集上的交织动态提示我们,真实世界任务的复杂性可能远超论文设计的基准。进一步研究可以探索更大规模模型(如GPT-4)上的ICoT现象,验证是否因架构或训练数据差异而产生不同模式。此外,ICoT与模型安全性的潜在联系值得深入挖掘,例如通过识别特定指令的处理层进行干预,可能为防止有害输出提供新方法,但这需要结合RLHF(强化学习与人类反馈)等对齐技术进行更系统的测试,以确保干预的有效性和安全性。



Previous Post
Large Language Models are Miscalibrated In-Context Learners
Next Post
Understanding Cross-Lingual Inconsistency in Large Language Models