本文通过调整初始化率和权重衰减系数控制大语言模型复杂性,显著提升推理能力,尤其在数学任务上表现突出,并在扩展律上展现更优性能。
Large Language Model, Reasoning, Pre-training, Efficiency, Scaling Laws
Liangkai Hang, Junjie Yao, Zhiwei Bai, Tianyi Chen, Yang Chen, Rongjie Diao, Hezhou Li, Pengxiao Lin, Zhiwei Wang, Cheng Xu, Zhongwang Zhang, Zhangchen Zhou, Zhiyu Li, Zehao Lin, Kai Chen, Feiyu Xiong, Yaoyu Zhang, Weinan E, Hongkang Yang, Zhi-Qin John Xu
上海交通大学自然科学研究院数学科学学院, 上海交通大学人工智能学院, 北京大学机器学习研究中心数学科学学院, 上海高级算法研究所大语言模型中心, 上海MemTensor科技有限公司
Generated by grok-3
Background Problem
近年来,大语言模型(LLMs)在推理能力上取得了显著进步,但其泛化能力和隐式推理能力仍存在局限,尤其是在处理结构化知识和复杂推理任务时表现不佳。本文从模型复杂性控制的角度出发,试图通过调整初始化策略和权重衰减来增强LLMs的推理能力,解决模型在训练过程中过度记忆而非深度理解数据的问题,旨在为大规模模型预训练提供实用指导。
Method
本文提出通过控制模型复杂性来提升大语言模型的推理能力,具体方法如下:
- 核心思想:通过调整初始化率(γ)和权重衰减系数(λ)来控制模型复杂性,迫使模型压缩数据,揭示深层依赖关系,从而避免单纯记忆,提升推理能力。
- 初始化率(γ):参数矩阵的初始化遵循正态分布 ,其中γ越大,初始化尺度越小,模型复杂性越低。γ>0.5被认为是小尺度初始化,可能引发凝聚现象(condensation),限制有效神经元数量。
- 权重衰减系数(λ):通过公式 实施权重衰减,λ越大,参数范数惩罚越强,模型复杂性越低。
- 关键点:这种方法不改变模型架构,仅通过超参数调整实现复杂性控制,具有可扩展性。然而,方法缺乏对训练稳定性和计算开销的充分讨论,小尺度初始化可能导致训练不稳定,论文中仅提及部分缓解措施(如嵌入归一化),未提供系统解决方案。
Experiment
本文通过基于Llama架构的模型进行实验,验证复杂性控制的效果:
- 实验设置:设置三种复杂性配置(小复杂性:γ=1, λ=1;大复杂性:γ=0.5, λ=0.1;默认配置:固定std=0.02, λ=0.1),训练不同规模模型(0.8B至2.4B参数)和数据量(0.2B至1.4B token)。评估涵盖多个基准任务(如GSM8K, MATH, MMLU等)。
- 结果:小复杂性模型在扩展律上表现更优,测试损失随数据和模型规模增加下降更快;在0.9B模型(600B token)和2.4B模型(1T token)上,平均性能提升分别为+4.6%和+3.4%,尤其在数学推理任务(如GSM8K提升19.4和11.0)上效果显著。然而,部分任务(如MMLU-Pro在2.4B模型上下降0.5)未达预期,且训练稳定性问题在较大模型中显现,需额外归一化技术缓解。
- 评价:实验设计较为全面,涵盖多种规模和任务,但对结果的解释偏向正面,忽略了部分任务的负面结果和训练成本增加的问题。此外,基准测试结果虽有提升,但与其他先进方法(如强化学习后训练或CoT提示)的对比缺失,难以判断其相对优势。
Further Thoughts
本文提出的复杂性控制思路为大语言模型的预训练提供了一种新颖视角,但其理论分析和实验结果仍有改进空间。未来研究可以探索复杂性控制与其他训练策略(如强化学习或指令微调)的结合效果,是否能在推理能力提升的同时解决训练稳定性问题。此外,复杂性控制对模型可解释性的潜在影响值得关注:小复杂性是否会导致模型内部表示过于压缩,从而降低对复杂任务的适应性?与此同时,考虑到当前大语言模型的规模不断扩大,复杂性控制在超大规模模型(例如百亿参数以上)上的表现和计算成本问题亟需进一步研究,或许可以借鉴联邦学习或参数高效微调的思路,优化其实际应用价值。