Skip to content
Go back 2505.17322 arXiv logo

From Compression to Expansion: A Layerwise Analysis of In-Context Learning

Published:  at  11:15 AM
88.68 🤔

本文通过统计几何分析揭示了大型语言模型在上下文学习中的层级压缩-扩展现象,早期层压缩任务信息,后期层扩展生成预测,并探讨了模型大小、演示数量和噪声对性能的影响。

Large Language Model, In-Context Learning, Representation Learning, Transformer, Reasoning

Jiachen Jiang, Yuxin Dong, Jinxin Zhou, Zhihui Zhu

The Ohio State University

Generated by grok-3

Background Problem

上下文学习(ICL)是大型语言模型(LLMs)的一项强大能力,使其能够在不更新权重的情况下,通过少量输入-输出示例适应新任务。尽管ICL在经验上表现出色,但其内部表示机制尚未被充分理解。本研究旨在通过统计几何分析,探索任务特定信息如何在模型层级中被提取和区分,回答关键问题:LLMs在上下文学习过程中如何从浅层到深层提取和区分任务信息?研究揭示了一种称为‘层级压缩-扩展’的现象,试图解释模型如何通过早期层压缩任务信息并在后期层扩展以生成预测。

Method

本研究提出了一种统计几何分析方法来研究ICL表示的层级动态,核心概念是‘层级压缩-扩展’现象,具体如下:

批判性思考:虽然TDNV提供了一个有趣的视角来量化任务信息的压缩程度,但其定义和计算可能过于依赖任务均值和方差的假设,可能在任务分布不均匀或复杂任务中失效。此外,理论分析基于线性注意力机制的简化模型,与实际复杂Transformer架构存在较大差距,可能限制其结论的普适性。

Experiment

实验设计覆盖了多种模型架构和ICL任务,具体如下:

Further Thoughts

本文提出的层级压缩-扩展现象为理解ICL的内部机制提供了一个新颖视角,但其研究任务的简单性可能限制了结论在更复杂任务(如多步推理或多模态任务)中的适用性。未来研究可以探索这一现象在更广泛任务领域中的表现,例如结合RAG(检索增强生成)系统,观察任务信息压缩是否会受到外部知识的影响。此外,理论分析的简化假设(如线性注意力)与实际模型的复杂性存在差距,建议后续工作引入更接近真实架构的模拟,或结合神经网络的可解释性工具(如注意力可视化)进一步验证理论结论。另一个有趣的方向是探索压缩阶段是否可以通过模型剪枝或知识蒸馏进一步优化,以提高ICL的计算效率,这可能对资源受限环境下的应用具有重要意义。



Previous Post
Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning
Next Post
Distilling LLM Agent into Small Models with Retrieval and Code Tools