Skip to content
Go back 2505.22922 arXiv logo

Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking

Published:  at  11:22 AM
90.15 🤔

本文通过综述、基准测试和提出权重重分解与动量重置两种技术,探索了大型语言模型预训练中的参数和内存高效方法,显著提升了低秩方法的性能并减少内存消耗,但仍无法完全匹配全秩训练的效果。

Large Language Model, Pre-training, Parameter-Efficient Fine-Tuning, Efficiency, Representation Learning

Athanasios Glentis, Jiaxiang Li, Qiulin Shang, Andi Han, Ioannis Tsaknakis, Quan Wei, Mingyi Hong

University of Minnesota, Peking University, University of Sydney

Generated by grok-3

Background Problem

大型语言模型(LLM)的参数规模近年来呈指数级增长,例如GPT-3拥有1750亿参数,而GPT-4和PaLM-2更是达到万亿级别。这种规模的增长带来了巨大的计算挑战,尤其是在预训练阶段所需的内存和计算资源方面。虽然参数高效微调(PEFT)技术如LoRA在下游任务中表现出色,但将其直接应用于预训练面临困难,因为预训练需要处理海量数据并学习广泛的表示。本文的研究起点是探索参数或内存高效方法是否能在预训练中实现与全模型训练相当的性能,并试图缩小性能差距。

Method

本文主要从三个方面展开研究:

Experiment

实验基于LLaMA模型(规模从60M到1B参数),使用C4数据集进行预训练,序列长度为256,批大小为512,采用BF16格式。评估指标为困惑度(Perplexity),越低越好。实验设置包括:

Further Thoughts

本文提出的权重重分解和动量重置方法在提升低秩预训练性能方面展现了潜力,但其适用性可能受到模型规模和任务复杂性的限制。未来可以探索这些方法在更大规模模型(如10B或以上)上的表现,以及是否能与量化技术结合,进一步减少内存需求。此外,动量重置的理论分析目前局限于SGD-M,考虑到AdamW等复杂优化器在实际预训练中的广泛应用,深入研究其在非凸优化环境下的收敛行为将是一个有价值的方向。另一个有趣的思考是,这些高效预训练方法是否能与联邦学习结合,在分布式环境中实现资源受限设备上的模型训练,从而拓宽LLM的应用场景,例如在边缘计算或隐私保护场景中。



Previous Post
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
Next Post
First Finish Search: Efficient Test-Time Scaling in Large Language Models