Tag: Scaling Laws
All the articles with the tag "Scaling Laws".
-
P$^2$ Law: Scaling Law for Post-Training After Model Pruning
本文提出P² Law作为剪枝后大型语言模型后训练的首个缩放定律,通过结合模型规模、后训练数据量、剪枝率和初始损失预测后训练损失,并在多种剪枝方法和模型上验证其有效性和部分泛化能力。
-
Scalable Complexity Control Facilitates Reasoning Ability of LLMs
本文通过调整初始化率和权重衰减系数控制大语言模型复杂性,显著提升推理能力,尤其在数学任务上表现突出,并在扩展律上展现更优性能。
-
When More is Less: Understanding Chain-of-Thought Length in LLMs
本文通过理论分析、控制实验和现实观察,揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系,提出最优长度随任务难度增加和模型能力增强而变化的缩放规律,并展示了基于最优长度的训练和推理策略的显著性能提升。
-
From Words to Worlds: Compositionality for Cognitive Architectures
本文通过设计三种任务评估大型语言模型(LLMs)的组合性能力,发现模型规模扩大通常提升组合性表现,而指令微调效果不一致,提示组合性对性能提升的解释力有限。
-
Parallel Scaling Law for Language Models
本文提出并行扩展(PARSCALE)方法,通过增加训练和推理时的并行计算流(P)来提升语言模型能力,理论和实验表明P流相当于参数扩展O(log P),并在低资源场景下展现出更高的推理效率。