Skip to content
Go back 2505.23013 arXiv logo

Scalable Complexity Control Facilitates Reasoning Ability of LLMs

Published:  at  11:29 AM
85.16 🤔

本文通过调整初始化率和权重衰减系数控制大语言模型复杂性,显著提升推理能力,尤其在数学任务上表现突出,并在扩展律上展现更优性能。

Large Language Model, Reasoning, Pre-training, Efficiency, Scaling Laws

Liangkai Hang, Junjie Yao, Zhiwei Bai, Tianyi Chen, Yang Chen, Rongjie Diao, Hezhou Li, Pengxiao Lin, Zhiwei Wang, Cheng Xu, Zhongwang Zhang, Zhangchen Zhou, Zhiyu Li, Zehao Lin, Kai Chen, Feiyu Xiong, Yaoyu Zhang, Weinan E, Hongkang Yang, Zhi-Qin John Xu

上海交通大学自然科学研究院数学科学学院, 上海交通大学人工智能学院, 北京大学机器学习研究中心数学科学学院, 上海高级算法研究所大语言模型中心, 上海MemTensor科技有限公司

Generated by grok-3

Background Problem

近年来,大语言模型(LLMs)在推理能力上取得了显著进步,但其泛化能力和隐式推理能力仍存在局限,尤其是在处理结构化知识和复杂推理任务时表现不佳。本文从模型复杂性控制的角度出发,试图通过调整初始化策略和权重衰减来增强LLMs的推理能力,解决模型在训练过程中过度记忆而非深度理解数据的问题,旨在为大规模模型预训练提供实用指导。

Method

本文提出通过控制模型复杂性来提升大语言模型的推理能力,具体方法如下:

Experiment

本文通过基于Llama架构的模型进行实验,验证复杂性控制的效果:

Further Thoughts

本文提出的复杂性控制思路为大语言模型的预训练提供了一种新颖视角,但其理论分析和实验结果仍有改进空间。未来研究可以探索复杂性控制与其他训练策略(如强化学习或指令微调)的结合效果,是否能在推理能力提升的同时解决训练稳定性问题。此外,复杂性控制对模型可解释性的潜在影响值得关注:小复杂性是否会导致模型内部表示过于压缩,从而降低对复杂任务的适应性?与此同时,考虑到当前大语言模型的规模不断扩大,复杂性控制在超大规模模型(例如百亿参数以上)上的表现和计算成本问题亟需进一步研究,或许可以借鉴联邦学习或参数高效微调的思路,优化其实际应用价值。



Previous Post
Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model
Next Post
Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning