Skip to content
Go back 2505.10465 arXiv logo

Superposition Yields Robust Neural Scaling

Published:  at  11:17 PM
86.47 🤔

本文通过玩具模型和实际LLMs分析,揭示了超位置作为神经扩展律的重要机制,在强超位置下损失与模型维度成反比,与特征频率分布无关,从而解释了损失随模型规模幂律下降的现象。

Large Language Model, Representation Learning, Scaling Laws, Efficiency

Yizhou liu, Ziming Liu, Jeff Gore

Massachusetts Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)的成功依赖于神经扩展律,即模型规模、训练数据和计算资源的增加一致带来性能提升。然而,损失随模型规模呈幂律下降的根本原因尚不明确。论文从两个经验原则出发——LLMs表示的特征数量远超其维度(即超位置现象)和语言中词汇或概念的出现频率不同——试图揭示超位置如何影响损失随模型规模的扩展行为,解决为何损失随模型维度增加而快速下降的关键问题。

Method

论文采用了一个简化的玩具模型来研究超位置对神经扩展律的影响,核心思想和步骤如下:

Experiment

实验设计和结果如下:

Further Thoughts

本文提出的超位置机制为理解神经扩展律提供了一个新视角,但其对实际LLMs设计的指导意义值得进一步探讨。例如,作者建议通过鼓励强超位置来提高小模型性能,这与近期一些架构(如nGPT)通过约束权重范数提升训练效率的尝试相呼应。然而,强超位置是否会导致模型在某些任务(如推理或对齐)上的潜在缺陷,例如表示重叠可能影响特征区分能力,仍需研究。此外,论文未深入探讨模型深度(而非宽度)对扩展律的影响,而在超大规模模型(>70B参数)中,深度增加可能是主要趋势,解析相关损失可能主导扩展行为,值得结合函数拟合或流形学习的理论进一步分析。另一个有趣的方向是超位置与数据分布的关系,若能在预训练中动态调整数据分布以优化超位置,可能进一步提升模型效率,这与联邦学习或数据增强领域的研究可能存在交叉点。



Previous Post
Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study
Next Post
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute