Skip to content
Go back 2505.10475 arXiv logo

Parallel Scaling Law for Language Models

Published:  at  11:28 AM
89.78 🤔

本文提出并行扩展(PARSCALE)方法,通过增加训练和推理时的并行计算流(P)来提升语言模型能力,理论和实验表明P流相当于参数扩展O(log P),并在低资源场景下展现出更高的推理效率。

Large Language Model, Pre-training, Efficiency, Reasoning, Scaling Laws

Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu

浙江大学, 阿里巴巴集团 Qwen 团队

Generated by grok-3

Background Problem

大型语言模型(LLMs)的扩展通常依赖于参数扩展(增加模型参数)和推理时间扩展(增加生成推理token数量),但这两种方法分别带来了高内存开销和高时间成本的问题。本文提出了一种新的扩展范式——并行扩展(PARSCALE),旨在通过增加训练和推理时的并行计算流(P)来提升模型能力,同时避免过高的空间和时间成本,探索计算与参数在模型能力中的独立贡献,并试图解决在低资源场景下部署强大模型的难题。

Method

本文提出的并行扩展(PARSCALE)方法核心在于通过对输入应用P个不同的可学习变换(如前缀调优),并行执行模型的前向传播,然后动态加权聚合P个输出结果。具体步骤如下:

Experiment

实验设计涵盖了大规模预训练和下游任务评估,具体如下:

Further Thoughts

PARSCALE提供了一个有趣的视角,即通过并行计算扩展模型能力,而非单纯依赖参数增长,这与近年来对推理时间扩展的研究(如GPT-o1的链式推理)形成对比。未来可以探索PARSCALE与推理时间扩展的结合潜力,例如是否可以通过并行流生成多样化推理路径,再结合验证器机制选择最优路径,从而解决推理过长的问题。此外,论文中提到的计算与参数对模型能力的不同贡献(参数影响记忆,计算影响推理)启发了对模型架构设计的思考:是否可以设计一种混合架构,将参数密集型模块与计算密集型模块分开优化,以适应不同任务需求?同时,PARSCALE在低资源边缘设备上的潜力值得进一步验证,尤其是在与稀疏专家混合(MoE)架构结合时,是否能进一步平衡内存与延迟,形成更高效的部署方案。



Previous Post
Merge to Mix: Mixing Datasets via Model Merging
Next Post
ShiQ: Bringing back Bellman to LLMs