Skip to content
Go back 2502.10940 arXiv logo

CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation

Published:  at  11:14 AM
89.66 🤔

本文提出CoLA及其内存优化变体CoLA-M,通过用低秩自动编码器替换LLMs的全尺寸MLP和投影层,实现2倍模型大小和计算成本的减少,同时保持全秩性能,并在训练和推理中显著提升吞吐量。

Large Language Model, Pre-training, Efficiency, Transformer, Parameter-Efficient Fine-Tuning

Ziyue Liu, Ruijie Zhang, Zhengyang Wang, Zi Yang, Paul Hovland, Bogdan Nicolae, Franck Cappello, Zheng Zhang

University of California at Santa Barbara, University at Albany, SUNY, Argonne National Laboratory

Generated by grok-3

Background Problem

大型语言模型(LLMs)在预训练阶段由于全尺寸MLP和注意力投影层的巨大参数量和计算需求,对计算资源提出了极高的要求。随着模型规模的持续增长(如GPT-3的175B参数,LLaMA-3的405B参数),训练成本变得不可持续。论文观察到预训练LLMs的激活值呈现低秩特性,提出通过减少激活冗余来提高计算和内存效率,解决预训练过程中的资源瓶颈问题,同时力求维持模型性能。

Method

CoLA(Compute-Efficient Pre-Training of LLMs via Low-Rank Activation)提出了一种全新的架构设计,通过以下方式实现高效预训练:

Experiment

实验在LLaMA模型(参数规模从60M到7B)和BERT-Large上进行,使用C4数据集和Wikipedia数据进行预训练,遵循计算最优(compute-optimal)设置,并与全秩训练、ReLoRA、GaLore和SLTrain等基线方法对比:

Further Thoughts

CoLA的低秩激活思想提供了一个有趣的视角,特别是在资源受限环境下的预训练中可能有广泛应用。然而,我认为其核心假设——激活值的低秩特性——需要进一步验证,尤其是在训练初期和超大规模模型上的适用性。未来的研究可以探索CoLA与现有高效训练方法(如LoRA或GaLore)的结合,例如在CoLA的低秩架构上应用梯度压缩技术,以进一步减少优化器内存开销。此外,CoLA是否能适应混合专家(MoE)架构也是一个值得探索的方向,论文中也提到了这一点。如果CoLA能在MoE模型上实现类似效率提升,可能对工业级大规模模型训练产生深远影响。另一个思考点是,CoLA的瓶颈结构是否会限制模型的表达能力,尤其是在处理复杂任务或长上下文时,这需要在下游任务上的更多测试来验证其泛化能力。



Previous Post
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling
Next Post
Shadow-FT: Tuning Instruct via Base