Skip to content
Go back 2505.20211 arXiv logo

Parameter-Efficient Fine-Tuning with Column Space Projection

Published:  at  11:16 AM
88.66 🤔

本文提出PiCa,一种基于谱特性的参数高效微调方法,通过将梯度投影到预训练权重的低秩列子空间并结合权重共享,在显著减少参数量的同时实现了优于LoRA和SVFT的性能。

Parameter-Efficient Fine-Tuning, Large Language Model, Fine-tuning, Efficiency, Representation Learning

Junseo Hwang, Wonguk Cho, Taesup Kim

Seoul National University

Generated by grok-3

Background Problem

大型语言模型(LLMs)的全微调(Full FT)在下游任务中表现出色,但其高昂的计算和内存成本限制了其在资源受限环境下的应用。参数高效微调(PEFT)方法如LoRA通过仅更新少量参数来解决这一问题,但近期研究表明LoRA与Full FT在学习模式上存在显著差异,尤其是在谱特性方面。基于此,本文提出了一种新的PEFT方法PiCa,旨在通过利用预训练权重的谱特性,使学习模式更接近Full FT,同时保持参数效率。

Method

PiCa(Parameter-efficient Fine-tuning with Column Space Projection)的核心思想是将权重更新(∆W)的梯度投影到预训练权重矩阵(W0)的低秩列子空间上,以保留最重要的谱特性并接近全微调(Full FT)的学习行为。

批判性思考:虽然理论推导为PiCa提供了支持,但其假设(如扰动矩阵E的元素接近零)可能在某些模型或任务中不成立,特别是在预训练权重分布不均匀的情况下。此外,SVD计算在推理时的额外开销可能限制其在实时应用中的实用性,论文虽提出可选存储投影矩阵,但这会削弱参数效率优势。

Experiment

PiCa在多个自然语言处理(NLP)任务上进行了广泛评估,包括自然语言生成(NLG,使用GSM-8K和MATH数据集)、常识推理(8个基准数据集如BoolQ、PIQA等)和自然语言理解(NLU,使用GLUE基准)。实验基于Gemma-2B/7B、LLaMA-3-8B和DeBERTaV3base模型,与LoRA、DoRA、BOFT、VeRA和SVFT等PEFT基线方法进行比较。

批判性思考:虽然实验结果令人印象深刻,但缺乏对失败案例或局限性的深入分析,例如在某些数据集或模型上性能未提升的原因。此外,推理时SVD计算的实际时间开销未被量化,可能在资源受限环境中成为瓶颈。

Further Thoughts

PiCa的谱特性投影方法提供了一个有趣的视角,即通过限制权重更新的方向来模拟全微调的学习行为,这可能启发其他PEFT方法在理论层面寻找更接近Full FT的更新策略。然而,其依赖于SVD分解的特性可能在动态或在线学习场景中受限,例如在持续学习(Continual Learning)中,预训练权重的谱结构可能随任务变化而改变,如何动态调整投影子空间是一个值得探索的方向。此外,权重共享策略是否可以结合联邦学习(Federated Learning)中的个性化需求,在不同客户端间共享部分矩阵B,同时保留客户端特定的投影矩阵U_r,也是一个潜在的研究方向。另一个思考点是,PiCa是否适用于多模态模型的微调,例如在视觉-语言模型中,权重矩阵的谱特性可能因模态差异而更加复杂,如何跨模态应用列空间投影可能需要额外的理论和实验支持。



Previous Post
Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster
Next Post
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning