Skip to content
Go back 2505.21785 arXiv logo

Born a Transformer -- Always a Transformer?

Published:  at  11:33 AM
87.20 🤔

本文通过检索和复制任务研究Transformer的长度泛化限制,发现预训练选择性增强了归纳能力(向右/向前任务),但无法克服架构固有局限,微调可平衡不对称性但仍受理论约束。

Transformer, Pre-training, In-Context Learning, Representation Learning, Reasoning

Yana Veitsman, Mayank Jobanputra, Yash Sarrof, Aleksandra Bakalova, Vera Demberg, Ellie Pavlick, Michael Hahn

Saarland University, Brown University

Generated by grok-3

Background Problem

Transformer架构在理论上存在长度泛化限制,即在处理超出训练长度的输入时表现不佳,尤其是在某些序列到序列任务(如检索和复制)上。本研究旨在探究大规模预训练语言模型(LLMs)是否能通过模型规模和预训练数据的庞大性克服这些限制。关键问题在于:预训练是否能重塑模型的归纳偏见,消除架构固有的局限性?论文通过研究检索(retrieval)和复制(copying)任务,分析预训练如何影响模型能力,并识别哪些限制依然存在。

Method

论文采用理论与实证相结合的方法,核心思路如下:

批判性思考: 理论分析依赖于C-RASP[pos]框架,但其适用性仅在绝对位置编码(APE)上得到正式证明,对旋转位置编码(RoPE)的适用性仅通过实证验证,存在一定局限性。此外,机制分析虽然揭示了归纳头和反归纳头的作用,但未深入探讨为何预训练数据会导致这种不对称性,可能错失了数据分布对模型偏见的影响。

Experiment

实验设计分为多个部分,旨在验证理论预测并探索预训练和微调的影响:

批判性思考: 实验设置中输入长度限制在50个token(上下文学习)或500个token(自然场景),未能充分测试更长上下文的表现,而长度泛化问题在长序列中可能更为显著。此外,微调实验仅限于1.5B参数模型,缺乏对更大模型的验证,可能影响结论的普适性。实验结果与理论预测部分一致,但某些可泛化任务(如NRFirst)的表现不佳,可能是提示设计或预训练偏见导致,论文未深入探讨这一矛盾。

Further Thoughts

本文揭示的归纳与反归纳不对称性可能与预训练数据的分布特性密切相关。自然语言中向前依赖(如预测下一个词)可能远多于向后依赖,这或许导致了归纳头在预训练中被优先强化。未来研究可以深入分析预训练语料的依赖模式,验证这一假设。此外,这种不对称性是否在其他架构(如RNN或State Space Model)中也存在,值得进一步探索。如果其他架构表现出不同的偏见,可能为设计更均衡的模型提供启示。

另一个值得思考的方向是长度泛化限制在实际应用中的影响。论文提到在高精度领域(如医学、代码生成)中复制故障可能导致严重后果,但未探讨如何通过混合方法(如结合外部工具或多模型协作)缓解这一问题。类似地,是否可以通过设计特定预训练任务(如增加向后依赖数据)来平衡归纳和反归纳能力,也是一个有趣的研究方向。最后,考虑到闭源模型和更大规模模型可能表现出不同行为,未来的工作应扩展实验范围,以验证结论的普适性。



Previous Post
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs
Next Post
PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery