Skip to content
Go back 2505.15471 arXiv logo

CoLA: Collaborative Low-Rank Adaptation

Published:  at  11:08 AM
89.45 🤔

CoLA通过提出灵活的LoRA架构和三种协作策略,结合扩展PiSSA初始化,显著提升了参数高效微调在多任务和数据稀缺场景下的性能和鲁棒性。

Parameter-Efficient Fine-Tuning, Large Language Model, Fine-tuning, Multi-task Learning, Efficiency

Yiyun Zhou, Chang Yao, Jingyuan Chen

Zhejiang University

Generated by grok-3

Background Problem

大型语言模型(LLMs)的缩放定律表明,随着模型规模的增加,性能提升呈现边际递减的趋势,而从头训练模型的资源成本极高,因此微调预训练模型成为一种实用替代方案。然而,传统全微调(FFT)计算成本高昂,参数高效微调(PEFT)方法如LoRA通过冻结预训练权重并添加轻量级任务特定模块来降低成本,但LoRA在多任务场景中存在任务干扰问题,且在数据稀缺时泛化能力不足。CoLA旨在通过提出更灵活的LoRA架构和协作策略,解决多任务学习中的知识分离问题以及数据稀缺场景下的性能下降问题。

Method

CoLA提出了一种灵活的LoRA架构,通过解除矩阵A和B数量的固定关系(即#A=M,#B=N,M和N为超参数),允许更自由的矩阵组合以捕捉数据中的共性和多样性。其核心方法包括:

Experiment

实验基于Llama-3.2-3B和Llama-3.1-8B模型,在多个单领域(通用、法律、医学、数学、金融)和多任务数据集上进行0-shot性能评估,数据集包括databricks-dolly-15k、GSM8k等。实验设置将生成任务转化为分类任务以提高评估效率,并与多种PEFT方法(如LoRA、DoRA、PiSSA、HydraLoRA等)进行对比。结果显示:

Further Thoughts

CoLA的灵活架构和矩阵A、B的协作策略为参数高效微调提供了一个新的视角,特别是在多任务学习中的知识分离问题上。然而,我认为其提出的#A < #B的量化关系可能并非普适,可能与任务类型或数据特性高度相关,未来研究可以探索这一关系在不同领域(如代码生成或图像处理)的表现。此外,CoLA的协作策略与图论中的二分图匹配有潜在联系,论文也提到这一点,但未深入探讨。如果能将最大匹配等图论算法引入矩阵选择策略,可能进一步优化协作效果,特别是在动态任务分配场景中。另一个值得思考的方向是CoLA与联邦学习结合的可能性,通过在分布式环境中应用协作策略,或许能解决隐私数据稀缺下的微调问题,但这需要解决额外的通信成本和模型一致性挑战。



Previous Post
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving
Next Post
MELON: Provable Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison