Beyond Next Token Prediction: Patch-Level Training for Large Language Models

本文提出patch级训练方法，通过将多个token聚合成高信息密度patch并分阶段训练大型语言模型，在训练成本减半的情况下保持甚至略提升模型性能。

Large Language Model, Pre-training, Efficiency, Transformer, Data Augmentation

Chenze Shao, Fandong Meng, Jie Zhou

Pattern Recognition Center, WeChat AI, Tencent Inc, China

Generated by grok-3

Background Problem

大型语言模型（LLM）的训练成本随着模型参数和训练数据量的增加而显著上升，成为下一代LLM开发的关键瓶颈。本文从提高训练效率的角度出发，提出了一种新的训练范式，旨在通过减少训练数据中的文本单元数量（即token数量D）来降低计算成本，同时尽量保持模型性能。论文指出，传统token级训练中每个token的信息密度较低，导致计算资源利用效率不高，因此探索通过聚合多个token为更高信息密度的‘patch’来提升训练效率，解决训练成本高昂的问题。

Method

本文提出了patch级训练方法，其核心思想是将多个连续的token聚合成一个称为‘patch’的高信息密度单元，作为训练的基本文本单位。具体步骤如下：

两阶段训练：训练分为patch级训练和token级训练两个阶段。在patch级训练阶段，将训练数据中的token序列按每K个token聚合为一个patch（通过对K个token的嵌入取平均值得到patch嵌入），模型以patch为单位输入较短序列，并训练预测下一个patch（包含K个token）。随后，在token级训练阶段，使用patch级训练得到的参数初始化模型，继续在剩余数据上进行传统token级训练以适应推理模式。
架构一致性：为确保知识从patch级到token级的平滑转移，patch级模型与token级模型保持相同的Transformer架构，仅在输入端通过平均嵌入形成patch，在输出端使用单一预测头同时预测下一个patch中的所有token。
成本计算：通过patch级训练，计算成本理论上可降为token级训练的1/K，整体训练成本为λ/K + (1-λ)倍原始成本，其中λ为patch级训练数据的比例。

批判性思考：虽然方法创新性地减少了训练单元数量，但其理论依据尚不充分，缺乏对信息密度增加如何具体提升学习效率的深入分析。此外，patch级训练可能丢失token间的细粒度语义信息，尤其在K较大时，模型可能难以捕捉长距离依赖关系。论文未充分讨论这种潜在的语义损失及其对模型性能的影响。

Experiment

实验在Pile数据集（约360B token）上进行，使用Transformer架构，模型规模从370M到2.7B参数不等。实验设置包括：patch大小K=4，patch级训练数据比例λ=2/3，理论上将训练成本降至0.5倍。评估指标包括困惑度（PPL）、零样本准确率（6个NLP基准测试）和指令跟随能力（MT-Bench）。

结果：在所有模型规模下，patch级训练在成本减半的情况下，性能与token级训练相当甚至略有提升（零样本平均准确率提升约0.5%）。例如，Transformer-370M在λ=2/3时，PPL从10.9降至10.7，平均准确率从42.2%提升至42.5%。多轮训练实验显示patch级训练在数据受限场景下仍具优势。
扩展性分析：随着模型规模增加，patch级训练的性能增益略有下降，表明知识转移难度随参数量增加而上升；随着数据量增加，性能提升更显著，表明该方法更适合数据丰富的场景。
超参数影响：patch大小K=4在效率和性能间取得较好平衡，λ=2/3在计算预算受限时表现最佳。
实验设计合理性：实验覆盖了多模型规模和数据场景，设置较为全面，但模型规模和数据量仍远低于当前最先进的LLM，结论在大规模场景下的适用性存疑。此外，实际加速比（约3.5倍）低于理论值（4倍），显示数据加载和梯度同步等开销的影响未被充分优化。

批判性思考：实验结果看似令人印象深刻，但性能提升幅度较小，且未明确是否由信息密度增加引起，可能是patch级初始化带来的正则化效应。实验缺乏对语义理解和长距离依赖建模能力的深入评估，可能掩盖了patch级训练的潜在缺陷。

Further Thoughts

patch级训练方法提供了一种有趣的训练效率提升思路，但其在大规模模型和数据上的可扩展性仍需验证。未来研究可以探索patch级训练与模型剪枝或量化等其他效率优化方法的结合，以进一步降低训练成本。此外，patch级训练可能对不同类型的数据（如代码、数学推理文本）有不同的影响，值得进一步研究其在特定领域中的适用性。另一个有趣的方向是探索patch级训练对模型学习长距离依赖能力的影响，例如是否可以通过动态调整patch大小或引入patch内token顺序信息来缓解潜在的语义损失问题。与此同时，patch级训练与Vision Transformer中patch处理的相似性也启发我们思考跨模态训练效率优化的通用策略，是否可以设计一种统一的patch处理框架适用于文本、图像和语音等多模态数据？