Skip to content
Go back 2505.22934 arXiv logo

Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging

Published:  at  11:40 AM
89.76 🤔

本文提出OSRM方法,通过在微调前约束LoRA子空间以减少任务间干扰,显著提升了多个语言模型在八个GLUE数据集上的合并性能,同时保持单任务准确性。

Large Language Model, Parameter-Efficient Fine-Tuning, Low-Rank Adaptation, Multimodality, Efficiency

Haobo Zhang, Jiayu Zhou

University of Michigan Ann Arbor

Generated by grok-3

Background Problem

大型语言模型(LMs)在不同任务上的微调取得了显著的性能,但为每个任务维护一个单独的微调模型在存储和部署上成本高昂。多任务学习虽然可以训练统一模型,但需要同时访问所有任务数据且计算开销大,限制了其扩展性。模型合并作为一种替代方案,旨在将多个任务特定的模型合并为一个多任务模型而无需额外训练。然而,现有合并方法在处理通过低秩适应(LoRA)微调的模型时常常导致性能严重下降。作者认为这种下降源于参数干扰以及模型参数与任务外数据分布的交互作用被忽视的问题,因此提出了一种新方法来解决这一关键问题,即减少任务间的不良干扰并提升合并性能。

Method

本文提出了OSRM(Orthogonal Subspaces for Robust Model Merging)方法,核心思想是在微调前约束LoRA子空间,使其与任务外数据分布尽可能正交,从而减少任务间的干扰。具体步骤如下:

批判性思考:虽然理论上通过正交子空间减少干扰的思路很优雅,但实际中任务间可能存在知识重叠,强制正交性可能丢弃有用的共享信息。此外,放松A2A_2约束可能削弱正交性效果,作者虽通过实验证明变化较小(约14%),但未深入分析这种变化对干扰的具体影响,存在一定理论与实践脱节的风险。

Experiment

实验在八个GLUE基准数据集上进行,涵盖单句和句对分类任务,评估了三种语言模型(RoBERTa-large、T5-large、Llama3.2-1B)以及两个大模型(Llama3.2-3B、Llama3-8B)的合并性能。对比了五种主流合并方法(Task Arithmetic、Fisher、RegMean、TIES、EMR)。

Further Thoughts

OSRM方法通过正交子空间约束减少LoRA模型合并中的干扰,这一思路启发了我对模型参数与数据分布交互的更深思考。未来是否可以将这一思想扩展到其他参数高效微调方法(如Prefix Tuning或Adapter)中,以解决类似的多任务干扰问题?此外,作者提到任务间知识重叠可能影响正交性约束的效果,这让我联想到多任务学习中的任务相关性研究,例如通过任务聚类或共享表示学习来优化合并策略,OSRM是否可以与这些方法结合,进一步提升性能?另一个有趣的方向是探索OSRM在大模型上的适用性问题,是否可以通过自适应调整正交性约束强度来适应不同规模模型的特性?最后,考虑到模型合并在边缘设备部署中的重要性,OSRM对内存和计算效率的优化(如样本特征平均)是否足以支持实时应用场景,仍需进一步验证和改进。



Previous Post
RAISE: Reinforced Adaptive Instruction Selection For Large Language Models
Next Post
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent