Parallel Scaling Law for Language Models

本文提出并行扩展（PARSCALE）方法，通过增加训练和推理时的并行计算流（P）来提升语言模型能力，理论和实验表明P流相当于参数扩展O(log P)，并在低资源场景下展现出更高的推理效率。

Large Language Model, Pre-training, Efficiency, Reasoning, Scaling Laws

Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu

浙江大学, 阿里巴巴集团 Qwen 团队

Generated by grok-3

Background Problem

大型语言模型（LLMs）的扩展通常依赖于参数扩展（增加模型参数）和推理时间扩展（增加生成推理token数量），但这两种方法分别带来了高内存开销和高时间成本的问题。本文提出了一种新的扩展范式——并行扩展（PARSCALE），旨在通过增加训练和推理时的并行计算流（P）来提升模型能力，同时避免过高的空间和时间成本，探索计算与参数在模型能力中的独立贡献，并试图解决在低资源场景下部署强大模型的难题。

Method

本文提出的并行扩展（PARSCALE）方法核心在于通过对输入应用P个不同的可学习变换（如前缀调优），并行执行模型的前向传播，然后动态加权聚合P个输出结果。具体步骤如下：

输入变换：采用前缀调优（Prefix Tuning）技术，为每个并行流添加不同的可学习前缀，相当于为不同流使用不同的KV缓存，以确保输出多样性。
并行计算：将输入复制为P份，分别经过变换后并行输入模型，执行P次前向传播，复用现有参数。
输出聚合：使用MLP将P个输出转换为聚合权重，通过动态加权求和得到最终输出，并引入标签平滑以避免权重过于集中。关键创新在于方法不改变模型结构，仅通过并行计算扩展能力，且适用于任何训练算法、数据和任务。然而，我对方法的可扩展性存疑：论文未充分讨论当P值较大时，计算成本是否会显著增加，以及动态加权机制在复杂任务中的稳定性。

Experiment

实验设计涵盖了大规模预训练和下游任务评估，具体如下：

数据集与设置：在Stack-V2（Python子集）和Pile数据集上进行预训练，训练数据量为42B token，模型参数从500M到4.4B，P值从1到8变化；此外，扩展到1T token训练和现成模型（Qwen-2.5）的持续预训练与参数高效微调（PEFT）。
结果：实验拟合出并行扩展法则，表明P个并行流相当于参数扩展O(log P)，且在推理效率上优于参数扩展，例如1.6B模型在P=8时，内存增加比参数扩展少22倍，延迟增加少6倍；在下游任务中，PARSCALE在推理密集型任务（如GSM8K和MMLU）上提升显著（P=8时GSM8K相对提升34%），但在通用任务上提升较小。
分析：实验设置较为全面，涵盖了不同规模模型和任务类型，但存在局限性：对数据重复和数据受限场景的探索不足，仅在附录中提及；此外，P值增加带来的训练成本问题虽通过两阶段策略缓解，但缺乏对最优训练数据分配的深入分析；结果显示方法对推理任务更有效，可能限制其通用性。总体而言，实验结果支持了并行扩展的潜力，但未完全解决其适用范围和成本问题。

Further Thoughts

PARSCALE提供了一个有趣的视角，即通过并行计算扩展模型能力，而非单纯依赖参数增长，这与近年来对推理时间扩展的研究（如GPT-o1的链式推理）形成对比。未来可以探索PARSCALE与推理时间扩展的结合潜力，例如是否可以通过并行流生成多样化推理路径，再结合验证器机制选择最优路径，从而解决推理过长的问题。此外，论文中提到的计算与参数对模型能力的不同贡献（参数影响记忆，计算影响推理）启发了对模型架构设计的思考：是否可以设计一种混合架构，将参数密集型模块与计算密集型模块分开优化，以适应不同任务需求？同时，PARSCALE在低资源边缘设备上的潜力值得进一步验证，尤其是在与稀疏专家混合（MoE）架构结合时，是否能进一步平衡内存与延迟，形成更高效的部署方案。