Tag: Scaling Laws

All the articles with the tag "Scaling Laws".

P$^2$ Law: Scaling Law for Post-Training After Model Pruning

Published: 2 Jun, 2025 at 01:15 PM

87.89 🤔

本文提出P² Law作为剪枝后大型语言模型后训练的首个缩放定律，通过结合模型规模、后训练数据量、剪枝率和初始损失预测后训练损失，并在多种剪枝方法和模型上验证其有效性和部分泛化能力。
Scalable Complexity Control Facilitates Reasoning Ability of LLMs

Published: 3 Jun, 2025 at 11:29 AM

85.16 🤔

本文通过调整初始化率和权重衰减系数控制大语言模型复杂性，显著提升推理能力，尤其在数学任务上表现突出，并在扩展律上展现更优性能。
When More is Less: Understanding Chain-of-Thought Length in LLMs

Published: 30 May, 2025 at 11:22 AM

85.45 🤔

本文通过理论分析、控制实验和现实观察，揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系，提出最优长度随任务难度增加和模型能力增强而变化的缩放规律，并展示了基于最优长度的训练和推理策略的显著性能提升。
From Words to Worlds: Compositionality for Cognitive Architectures

Published: 25 May, 2025 at 11:24 AM

91.89 🤔

本文通过设计三种任务评估大型语言模型（LLMs）的组合性能力，发现模型规模扩大通常提升组合性表现，而指令微调效果不一致，提示组合性对性能提升的解释力有限。
Parallel Scaling Law for Language Models

Published: 21 May, 2025 at 11:28 AM

89.78 🤔

本文提出并行扩展（PARSCALE）方法，通过增加训练和推理时的并行计算流（P）来提升语言模型能力，理论和实验表明P流相当于参数扩展O(log P)，并在低资源场景下展现出更高的推理效率。

Tag: Scaling Laws

P$^2$ Law: Scaling Law for Post-Training After Model Pruning

Scalable Complexity Control Facilitates Reasoning Ability of LLMs

When More is Less: Understanding Chain-of-Thought Length in LLMs

From Words to Worlds: Compositionality for Cognitive Architectures

Parallel Scaling Law for Language Models