Skip to content
Go back 2412.03587 arXiv logo

Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models

Published:  at  11:20 PM
86.60 🤔

本文提出SAFE方法,通过选择性冻结对任务贡献较小的适配器,实现资源高效的语言模型微调,在显著降低内存使用和计算成本的同时,保持甚至提升模型性能。

Parameter-Efficient Fine-Tuning, Large Language Model, Efficiency, Fine-tuning, Regularization

Hyegang Son, Yonglak Son, Changhoon Kim, Young Geun Kim

Korea University, Arizona State University, Soongsil University

Generated by grok-3

Background Problem

大型预训练语言模型(PLMs)在各种任务中表现出色,但其微调过程对计算资源和内存的需求极高。传统的全参数微调(Full-Tuning)成本高昂,而参数高效微调(PEFT)方法如适配器微调(Adapter-Tuning)通过引入轻量级可训练模块减少了参数量,却未显著降低内存使用(主要是激活内存)。论文指出,不同适配器对任务性能和资源使用的贡献不均等,提出了一个关键问题:是否可以在不牺牲精度的前提下减少训练适配器的数量?基于此,论文旨在通过选择性冻结不重要的适配器来实现资源高效的微调,同时保持甚至提升模型性能。

Method

论文提出了选择性适配器冻结(SAFE)方法,其核心思想是通过早期冻结对任务适应贡献较小的适配器来减少资源使用,同时保持模型性能。具体步骤如下:

Experiment

SAFE在多个任务和模型上进行了广泛实验,包括自然语言理解(NLU,使用GLUE数据集)、问答(QA,使用SQuAD数据集)、自然语言生成(NLG,使用E2E NLG Challenge数据集)以及大型模型测试(LLaMA-27B,使用WikiText-2数据集)。实验设置涵盖了BERT、RoBERTa、GPT-2和LLaMA等模型,与LoRA等基线方法及AdapterDrop、SparseAdapter等资源高效方法进行了对比。

Further Thoughts

SAFE方法在资源高效微调领域展现了潜力,但其依赖CKA指标和经验性阈值设定的局限性值得进一步探讨。未来研究可以尝试结合任务损失直接优化适配器重要性评分,而非仅依赖特征相似性。此外,SAFE与其他内存高效技术(如量化、梯度检查点)的结合可能进一步提升其实用性,尤其是在边缘设备上的个性化微调场景中。另一个有趣的方向是探索SAFE在多任务学习中的应用,是否能通过跨任务的适配器重要性分析实现更高效的共享和冻结策略,这可能与联邦学习(Federated Learning)领域的研究产生交叉启发,特别是在资源受限的分布式环境中。



Previous Post
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
Next Post
Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation