Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking

本文通过综述、基准测试和提出权重重分解与动量重置两种技术，探索了大型语言模型预训练中的参数和内存高效方法，显著提升了低秩方法的性能并减少内存消耗，但仍无法完全匹配全秩训练的效果。

Large Language Model, Pre-training, Parameter-Efficient Fine-Tuning, Efficiency, Representation Learning

Athanasios Glentis, Jiaxiang Li, Qiulin Shang, Andi Han, Ioannis Tsaknakis, Quan Wei, Mingyi Hong

University of Minnesota, Peking University, University of Sydney

Generated by grok-3

Background Problem

大型语言模型（LLM）的参数规模近年来呈指数级增长，例如GPT-3拥有1750亿参数，而GPT-4和PaLM-2更是达到万亿级别。这种规模的增长带来了巨大的计算挑战，尤其是在预训练阶段所需的内存和计算资源方面。虽然参数高效微调（PEFT）技术如LoRA在下游任务中表现出色，但将其直接应用于预训练面临困难，因为预训练需要处理海量数据并学习广泛的表示。本文的研究起点是探索参数或内存高效方法是否能在预训练中实现与全模型训练相当的性能，并试图缩小性能差距。

Method

本文主要从三个方面展开研究：

综述现有方法：作者系统总结了近期在参数和内存高效预训练方面的进展，分为内存高效优化器（如GaLore，通过低秩投影减少优化器状态内存）、权重分解（如LoRA和SLTrain，通过低秩或稀疏矩阵减少参数量）和压缩量化方法。
基准测试：作者对代表性方法（包括全秩训练、低秩方法、LoRA、SLTrain、GaLore和Fira）进行了全面的性能评估，测试了从60M到1B参数规模的LLaMA模型，强调全秩训练的优越性，并发现通过高秩更新可提升低秩方法的性能。
提出新方法：作者提出了两种实用技术以提升低秩方法的性能：
- 权重重分解：通过对权重矩阵进行奇异值分解（SVD）并重新分配矩阵因子（如 $B' = U\sqrt{\Sigma}$ 和 $A' = \sqrt{\Sigma}V^{\top}$ ），改善Hessian矩阵的条件数，从而加速局部收敛。
- 动量重置：周期性将优化器的动量（如AdamW）重置为零，以消除梯度尖峰的影响，理论上在温和损失景观下可加速收敛。 批判性思考：虽然新方法在理论上有一定依据，但权重重分解的理论分析基于局部最优性假设，可能不完全适用于复杂的非凸优化问题；动量重置的分析基于SGD-M，对AdamW的适用性缺乏深入探讨。此外，两种方法的效果依赖于超参数（如重分解和重置的频率），论文未充分讨论其鲁棒性。

Experiment

实验基于LLaMA模型（规模从60M到1B参数），使用C4数据集进行预训练，序列长度为256，批大小为512，采用BF16格式。评估指标为困惑度（Perplexity），越低越好。实验设置包括：

基准测试：对全秩训练（使用Stable-SPAM优化器）、低秩方法、LoRA、SLTrain、GaLore和Fira进行超参数搜索，比较其困惑度和内存消耗。结果显示全秩训练性能最佳（如1B模型困惑度为13.97），而Fira（15.10）和SLTrain（15.40）等方法接近但仍有差距。作者指出低秩方法在小模型上表现较好，但在大模型上性能下降，可能是训练动态不稳定导致。
新方法效果：应用权重重分解和动量重置后，低秩方法和SLTrain的性能显著提升，例如1B模型的低秩方法困惑度从18.22降至15.01，SLTrain从15.40降至14.37，接近GaLore和Fira，同时内存消耗减少约25%。消融研究表明动量重置对收敛速度贡献更大。 批判性思考：实验设置较为全面，但规模有限（最大1B参数），难以反映更大模型（如GPT-3级别）的表现。此外，部分结果（如Fira和GaLore的困惑度）与原论文不一致，可能是超参数调整或训练不稳定导致，影响可重复性。实验未涉及量化方法的对比，可能错过了一些潜在的高效策略。

Further Thoughts

本文提出的权重重分解和动量重置方法在提升低秩预训练性能方面展现了潜力，但其适用性可能受到模型规模和任务复杂性的限制。未来可以探索这些方法在更大规模模型（如10B或以上）上的表现，以及是否能与量化技术结合，进一步减少内存需求。此外，动量重置的理论分析目前局限于SGD-M，考虑到AdamW等复杂优化器在实际预训练中的广泛应用，深入研究其在非凸优化环境下的收敛行为将是一个有价值的方向。另一个有趣的思考是，这些高效预训练方法是否能与联邦学习结合，在分布式环境中实现资源受限设备上的模型训练，从而拓宽LLM的应用场景，例如在边缘计算或隐私保护场景中。