Sparsity May Be All You Need: Sparse Random Parameter Adaptation

本文提出SpaRTA方法，通过随机选择一小部分预训练模型参数进行微调，实现参数高效性，并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。

Parameter-Efficient Fine-Tuning, Supervised Learning, Large Language Model, Efficiency, Fine-tuning

Jesus Rios, Pierre Dognin, Ronny Luss, Karthikeyan N. Ramamurthy

IBM Research

Generated by grok-3

Background Problem

随着大型语言模型（LLMs）的规模不断扩大，完整参数微调（Full Fine-Tuning, FT）的计算和内存成本变得难以承受。参数高效微调（PEFT）方法应运而生，旨在通过仅训练一小部分参数来降低资源需求。当前最流行的PEFT方法是低秩适应（LoRA），它通过引入低秩矩阵来减少可训练参数数量。本文质疑低秩结构是否为必要条件，并提出了一种更简单的替代方案，试图解决PEFT中计算效率和性能之间的平衡问题，同时探索容量限制对模型适应的影响。

Method

本文提出了稀疏随机参数适应（SpaRTA）方法，其核心思想是通过随机选择预训练模型参数的一个小比例子集进行微调，而冻结其余参数，以实现参数高效性。具体步骤如下：

参数选择：从预训练模型参数θPT中随机抽取m个参数（m远小于总参数n），记录其索引为ϕ，稀疏度定义为s=1-m/n。
训练过程：仅对选定的参数子集∆ϕ进行优化，使用Adam优化器更新这些参数，同时保持其他参数不变。训练时通过合并和拆分操作确保计算图正确性（详见算法1）。
推理阶段：将微调后的∆ϕ合并回θPT，不引入额外推理延迟。 关键点：SpaRTA不依赖低秩结构，而是通过稀疏性直接限制模型容量，减少优化器状态和梯度计算的内存需求。然而，随机选择参数缺乏明确依据，可能无法保证选中的参数对任务适应至关重要，这是一个潜在缺陷。

Experiment

实验主要针对自然语言理解（NLU）任务，使用多个基准数据集（如IMDB、GLUE、BoolQ、MMLU）评估SpaRTA的性能。实验设置如下：

模型：测试了gemma-2b、gemma-2b-it、mistral-7b和mistral-7b-it等开源模型，涵盖基础模型和指令微调模型。
方法对比：将SpaRTA与LoRA、DoRA和完整参数微调（Full FT）进行比较，SpaRTA测试了不同密度（5%、0.5%、0.05%等）。
结果：在IMDB数据集上，SpaRTA在高密度（5%）时接近Full FT性能，在低密度（0.05%）时与LoRA相当，甚至在mistral模型上略优。在GLUE和BoolQ任务中，SpaRTA在低密度下与LoRA和DoRA表现接近，针对特定参数（如自注意力矩阵Wv和Wo）时性能更优。MMLU任务结果显示SpaRTA与LoRA竞争力相当。
评估：实验结果表明SpaRTA在内存效率和性能上具有竞争力，尤其在稀疏度高时仍能维持较好表现。然而，实验设计存在局限：仅关注NLU任务，未测试NLG任务，难以评估方法的普适性；稀疏度选择对性能影响显著，但未提供系统性指导；随机选择的参数可能导致性能波动，实验未充分探讨其稳定性。

Further Thoughts

SpaRTA提供了一个有趣的视角，即通过简单稀疏性限制模型容量可能足以实现高效微调，而无需复杂结构如低秩矩阵。这启发我们重新思考PEFT方法的本质：是否结构化约束（如LoRA的低秩）真的必要，还是仅仅减少参数数量即可？然而，随机选择参数的策略可能存在隐患，尤其是在任务复杂性高或数据量有限时，可能无法有效捕捉关键参数，导致性能不稳定。未来研究可以探索结合参数重要性评估的稀疏选择方法，而非纯随机，以提升效果。此外，SpaRTA的稀疏特性可能在模型合并（Model Merging）或多任务学习中具有优势，因为其参数干扰较小，这与近期一些关于模型融合的研究（如Wortsman等人的工作）相呼应，值得进一步探索其在这些领域的潜力。