本文提出并行扩展(PARSCALE)方法,通过增加训练和推理时的并行计算流(P)来提升语言模型能力,理论和实验表明P流相当于参数扩展O(log P),并在低资源场景下展现出更高的推理效率。
Large Language Model, Pre-training, Efficiency, Reasoning, Scaling Laws
Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
浙江大学, 阿里巴巴集团 Qwen 团队
Generated by grok-3
Background Problem
大型语言模型(LLMs)的扩展通常依赖于参数扩展(增加模型参数)和推理时间扩展(增加生成推理token数量),但这两种方法分别带来了高内存开销和高时间成本的问题。本文提出了一种新的扩展范式——并行扩展(PARSCALE),旨在通过增加训练和推理时的并行计算流(P)来提升模型能力,同时避免过高的空间和时间成本,探索计算与参数在模型能力中的独立贡献,并试图解决在低资源场景下部署强大模型的难题。
Method
本文提出的并行扩展(PARSCALE)方法核心在于通过对输入应用P个不同的可学习变换(如前缀调优),并行执行模型的前向传播,然后动态加权聚合P个输出结果。具体步骤如下:
- 输入变换:采用前缀调优(Prefix Tuning)技术,为每个并行流添加不同的可学习前缀,相当于为不同流使用不同的KV缓存,以确保输出多样性。
- 并行计算:将输入复制为P份,分别经过变换后并行输入模型,执行P次前向传播,复用现有参数。
- 输出聚合:使用MLP将P个输出转换为聚合权重,通过动态加权求和得到最终输出,并引入标签平滑以避免权重过于集中。 关键创新在于方法不改变模型结构,仅通过并行计算扩展能力,且适用于任何训练算法、数据和任务。然而,我对方法的可扩展性存疑:论文未充分讨论当P值较大时,计算成本是否会显著增加,以及动态加权机制在复杂任务中的稳定性。
Experiment
实验设计涵盖了大规模预训练和下游任务评估,具体如下:
- 数据集与设置:在Stack-V2(Python子集)和Pile数据集上进行预训练,训练数据量为42B token,模型参数从500M到4.4B,P值从1到8变化;此外,扩展到1T token训练和现成模型(Qwen-2.5)的持续预训练与参数高效微调(PEFT)。
- 结果:实验拟合出并行扩展法则,表明P个并行流相当于参数扩展O(log P),且在推理效率上优于参数扩展,例如1.6B模型在P=8时,内存增加比参数扩展少22倍,延迟增加少6倍;在下游任务中,PARSCALE在推理密集型任务(如GSM8K和MMLU)上提升显著(P=8时GSM8K相对提升34%),但在通用任务上提升较小。
- 分析:实验设置较为全面,涵盖了不同规模模型和任务类型,但存在局限性:对数据重复和数据受限场景的探索不足,仅在附录中提及;此外,P值增加带来的训练成本问题虽通过两阶段策略缓解,但缺乏对最优训练数据分配的深入分析;结果显示方法对推理任务更有效,可能限制其通用性。总体而言,实验结果支持了并行扩展的潜力,但未完全解决其适用范围和成本问题。
Further Thoughts
PARSCALE提供了一个有趣的视角,即通过并行计算扩展模型能力,而非单纯依赖参数增长,这与近年来对推理时间扩展的研究(如GPT-o1的链式推理)形成对比。未来可以探索PARSCALE与推理时间扩展的结合潜力,例如是否可以通过并行流生成多样化推理路径,再结合验证器机制选择最优路径,从而解决推理过长的问题。此外,论文中提到的计算与参数对模型能力的不同贡献(参数影响记忆,计算影响推理)启发了对模型架构设计的思考:是否可以设计一种混合架构,将参数密集型模块与计算密集型模块分开优化,以适应不同任务需求?同时,PARSCALE在低资源边缘设备上的潜力值得进一步验证,尤其是在与稀疏专家混合(MoE)架构结合时,是否能进一步平衡内存与延迟,形成更高效的部署方案。