Skip to content
Go back 2501.00070 arXiv logo

ICLR: In-Context Learning of Representations

Published:  at  08:41 AM
84.18 🤔

本文通过上下文图追踪任务揭示了大型语言模型能随上下文规模增加而突现地重组概念表示以适应新语义,并提出能量最小化假设解释这一过程。

Large Language Model, In-Context Learning, Representation Learning, Emergent Abilities, Long Context

Core Francisco Park, Andrew Lee, Ekdeep Singh Lubana, Yongyi Yang, Maya Okawa, Kento Nishi, Martin Wattenberg, Hidenori Tanaka

Harvard University, NTT Research Inc., University of Michigan, Ann Arbor

Generated by grok-3

Background Problem

大型语言模型(LLMs)在预训练数据中组织概念表示的方式通常反映数据的语义结构,但当模型在开放环境中遇到与预训练语义不同的新语义时,是否能根据上下文重新组织表示仍是一个未解之谜。本文旨在探索这一问题:通过上下文学习(In-Context Learning, ICL),模型是否能将预训练语义调整为上下文指定的新语义?关键问题在于验证模型的表示灵活性,以及这种重组是否随着上下文规模的增加而突现(emergent)。

Method

本文提出了一种名为’上下文图追踪’(In-Context Graph Tracing)的任务,用于研究模型表示的重组。具体方法如下:

Experiment

实验主要基于Llama-3.1-8B模型,并扩展到其他模型(如Llama3.2-1B、Gemma-2-2B等)进行验证,数据集为合成数据,通过随机游走生成图结构上的序列。实验设置包括三种图结构(方形网格、环形、六边形网格),并测试了不同上下文长度对表示重组和任务准确率的影响。结果表明:

Further Thoughts

这篇论文的研究为理解上下文学习中的表示重组提供了一个新颖视角,但也引发了一些值得深入探讨的问题。首先,能量最小化假设虽然优雅,但是否适用于更复杂的自然语言任务仍需验证,例如在多模态或跨领域任务中,模型是否仍能通过类似机制重组表示?其次,论文中提到的语义冲突结果表明预训练语义对模型的影响根深蒂固,这与近期关于模型对齐(Alignment)和微调(Fine-tuning)的研究相呼应——是否可以通过特定的上下文设计或指令调整(Instruction Tuning)进一步削弱预训练语义的 dominance,从而提升模型对新语义的适应性?此外,论文与神经科学中关于人类大脑如何形成结构化表示的研究(如Garvert et al., 2017)建立了联系,这提示我们可以在人工智能与认知科学之间建立更深的桥梁,例如探索LLMs是否能在上下文学习中形成类似人类大脑中的’世界模型’(World Model),这对构建通用智能系统具有重要意义。最后,考虑到上下文规模的扩展可能解锁新能力,未来研究可以探索上下文长度与计算资源之间的权衡,以及如何设计更高效的上下文学习策略来提升模型性能。



Previous Post
Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization
Next Post
Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models