Skip to content
Go back 2502.15975 arXiv logo

Sparsity May Be All You Need: Sparse Random Parameter Adaptation

Published:  at  11:51 AM
85.87 🤔

本文提出SpaRTA方法,通过随机选择一小部分预训练模型参数进行微调,实现参数高效性,并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。

Parameter-Efficient Fine-Tuning, Supervised Learning, Large Language Model, Efficiency, Fine-tuning

Jesus Rios, Pierre Dognin, Ronny Luss, Karthikeyan N. Ramamurthy

IBM Research

Generated by grok-3

Background Problem

随着大型语言模型(LLMs)的规模不断扩大,完整参数微调(Full Fine-Tuning, FT)的计算和内存成本变得难以承受。参数高效微调(PEFT)方法应运而生,旨在通过仅训练一小部分参数来降低资源需求。当前最流行的PEFT方法是低秩适应(LoRA),它通过引入低秩矩阵来减少可训练参数数量。本文质疑低秩结构是否为必要条件,并提出了一种更简单的替代方案,试图解决PEFT中计算效率和性能之间的平衡问题,同时探索容量限制对模型适应的影响。

Method

本文提出了稀疏随机参数适应(SpaRTA)方法,其核心思想是通过随机选择预训练模型参数的一个小比例子集进行微调,而冻结其余参数,以实现参数高效性。具体步骤如下:

Experiment

实验主要针对自然语言理解(NLU)任务,使用多个基准数据集(如IMDB、GLUE、BoolQ、MMLU)评估SpaRTA的性能。实验设置如下:

Further Thoughts

SpaRTA提供了一个有趣的视角,即通过简单稀疏性限制模型容量可能足以实现高效微调,而无需复杂结构如低秩矩阵。这启发我们重新思考PEFT方法的本质:是否结构化约束(如LoRA的低秩)真的必要,还是仅仅减少参数数量即可?然而,随机选择参数的策略可能存在隐患,尤其是在任务复杂性高或数据量有限时,可能无法有效捕捉关键参数,导致性能不稳定。未来研究可以探索结合参数重要性评估的稀疏选择方法,而非纯随机,以提升效果。此外,SpaRTA的稀疏特性可能在模型合并(Model Merging)或多任务学习中具有优势,因为其参数干扰较小,这与近期一些关于模型融合的研究(如Wortsman等人的工作)相呼应,值得进一步探索其在这些领域的潜力。



Previous Post
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models
Next Post
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning