Born a Transformer -- Always a Transformer?

本文通过检索和复制任务研究Transformer的长度泛化限制，发现预训练选择性增强了归纳能力（向右/向前任务），但无法克服架构固有局限，微调可平衡不对称性但仍受理论约束。

Transformer, Pre-training, In-Context Learning, Representation Learning, Reasoning

Yana Veitsman, Mayank Jobanputra, Yash Sarrof, Aleksandra Bakalova, Vera Demberg, Ellie Pavlick, Michael Hahn

Saarland University, Brown University

Generated by grok-3

Background Problem

Transformer架构在理论上存在长度泛化限制，即在处理超出训练长度的输入时表现不佳，尤其是在某些序列到序列任务（如检索和复制）上。本研究旨在探究大规模预训练语言模型（LLMs）是否能通过模型规模和预训练数据的庞大性克服这些限制。关键问题在于：预训练是否能重塑模型的归纳偏见，消除架构固有的局限性？论文通过研究检索（retrieval）和复制（copying）任务，分析预训练如何影响模型能力，并识别哪些限制依然存在。

Method

论文采用理论与实证相结合的方法，核心思路如下：

理论框架： 使用C-RASP[pos]语言框架（基于Huang等人2025年的工作）分析Transformer在检索和复制任务上的长度泛化能力。C-RASP[pos]程序的存在与否被用来预测任务是否能泛化到更长输入，具体通过构造程序或证明不可表达性来提供理论保证。例如，唯一检索任务（如UR）和部分非唯一检索任务（如NRFirst）被证明在C-RASP[pos]中可表达，而NRLast和非唯一复制任务（如NF）则不可表达。
实证方法： 包括上下文学习（in-context learning）、微调（fine-tuning）和机制分析（mechanistic analysis）。
- 上下文学习： 测试预训练模型在不同任务上的表现，观察归纳与反归纳不对称性（即向右/向前任务表现优于向左/向后任务）。
- 微调： 通过任务特定微调，验证是否能消除预训练带来的不对称性，并测试长度泛化能力，训练长度为[ℓmin, 100]，测试长度为[101, 200]。
- 机制分析： 分析归纳头和反归纳头在预训练和微调模型中的强度差异，解释不对称性的来源。

批判性思考： 理论分析依赖于C-RASP[pos]框架，但其适用性仅在绝对位置编码（APE）上得到正式证明，对旋转位置编码（RoPE）的适用性仅通过实证验证，存在一定局限性。此外，机制分析虽然揭示了归纳头和反归纳头的作用，但未深入探讨为何预训练数据会导致这种不对称性，可能错失了数据分布对模型偏见的影响。

Experiment

实验设计分为多个部分，旨在验证理论预测并探索预训练和微调的影响：

上下文学习实验： 使用多个预训练模型（如Llama3.1-8B/70B, Qwen2.5-7B/32B）测试检索和复制任务，输入长度为10到50个token。结果显示预训练模型存在明显的左-右不对称性，向右检索和向前复制任务表现更好，而向左检索和向后复制任务表现较差。此外，唯一任务（如UR）比非唯一任务（如NRLast）更容易完成，但某些理论上可泛化的任务（如NRFirst）表现不佳，与预期不符。
自然场景测试： 通过复制Lorem Ipsum段落（约500个token）和Git提交历史任务，验证不对称性和复制故障。结果表明，复制错误主要发生在模糊token处（即非唯一依赖），与理论预测的非唯一复制任务（NF）故障模式一致；Git任务中向前复制优于向后复制，反映了不对称性。
微调实验： 使用GPT-2 1.5B模型进行任务特定微调，结果显示微调消除了左-右不对称性，且C-RASP[pos]可表达的任务（如UR, UL, UF）在超出训练长度的测试中保持完美准确率，而不可表达的任务（如NRLast, NF）则表现下降。
机制分析： 通过注意力分数和补丁实验（patching experiment），发现预训练模型中归纳头比反归纳头更强，而微调可以增强相关头部，消除不对称性。

批判性思考： 实验设置中输入长度限制在50个token（上下文学习）或500个token（自然场景），未能充分测试更长上下文的表现，而长度泛化问题在长序列中可能更为显著。此外，微调实验仅限于1.5B参数模型，缺乏对更大模型的验证，可能影响结论的普适性。实验结果与理论预测部分一致，但某些可泛化任务（如NRFirst）的表现不佳，可能是提示设计或预训练偏见导致，论文未深入探讨这一矛盾。

Further Thoughts

本文揭示的归纳与反归纳不对称性可能与预训练数据的分布特性密切相关。自然语言中向前依赖（如预测下一个词）可能远多于向后依赖，这或许导致了归纳头在预训练中被优先强化。未来研究可以深入分析预训练语料的依赖模式，验证这一假设。此外，这种不对称性是否在其他架构（如RNN或State Space Model）中也存在，值得进一步探索。如果其他架构表现出不同的偏见，可能为设计更均衡的模型提供启示。

另一个值得思考的方向是长度泛化限制在实际应用中的影响。论文提到在高精度领域（如医学、代码生成）中复制故障可能导致严重后果，但未探讨如何通过混合方法（如结合外部工具或多模型协作）缓解这一问题。类似地，是否可以通过设计特定预训练任务（如增加向后依赖数据）来平衡归纳和反归纳能力，也是一个有趣的研究方向。最后，考虑到闭源模型和更大规模模型可能表现出不同行为，未来的工作应扩展实验范围，以验证结论的普适性。