本文提出OSRM方法,通过在微调前约束LoRA子空间以减少任务间干扰,显著提升了多个语言模型在八个GLUE数据集上的合并性能,同时保持单任务准确性。
Large Language Model, Parameter-Efficient Fine-Tuning, Low-Rank Adaptation, Multimodality, Efficiency
Haobo Zhang, Jiayu Zhou
University of Michigan Ann Arbor
Generated by grok-3
Background Problem
大型语言模型(LMs)在不同任务上的微调取得了显著的性能,但为每个任务维护一个单独的微调模型在存储和部署上成本高昂。多任务学习虽然可以训练统一模型,但需要同时访问所有任务数据且计算开销大,限制了其扩展性。模型合并作为一种替代方案,旨在将多个任务特定的模型合并为一个多任务模型而无需额外训练。然而,现有合并方法在处理通过低秩适应(LoRA)微调的模型时常常导致性能严重下降。作者认为这种下降源于参数干扰以及模型参数与任务外数据分布的交互作用被忽视的问题,因此提出了一种新方法来解决这一关键问题,即减少任务间的不良干扰并提升合并性能。
Method
本文提出了OSRM(Orthogonal Subspaces for Robust Model Merging)方法,核心思想是在微调前约束LoRA子空间,使其与任务外数据分布尽可能正交,从而减少任务间的干扰。具体步骤如下:
- 动机与问题建模:作者分析了LoRA模型合并时,任务特定参数更新(如)对其他任务输入特征(如)产生的意外输出偏移,提出通过限制LoRA矩阵对任务外数据的变换能力来减少干扰。
- 子空间约束:针对LoRA更新矩阵,作者选择约束矩阵,通过最小化Frobenius范数(其中是其他任务的隐特征矩阵),并要求具有正交行(),以保留模型对目标任务的表达能力。
- 解析解:通过对样本协方差矩阵进行特征值分解,被初始化为对应最小特征值的特征向量,确保其位于任务外数据方差最小的子空间中,从而减少干扰。
- 实用扩展:在微调时,的约束被放松为初始化条件,允许其更新以避免单任务性能下降;对于多任务场景,通过拼接其他任务的特征矩阵来构建约束;此外,提出平均样本特征以降低内存和隐私问题。
批判性思考:虽然理论上通过正交子空间减少干扰的思路很优雅,但实际中任务间可能存在知识重叠,强制正交性可能丢弃有用的共享信息。此外,放松约束可能削弱正交性效果,作者虽通过实验证明变化较小(约14%),但未深入分析这种变化对干扰的具体影响,存在一定理论与实践脱节的风险。
Experiment
实验在八个GLUE基准数据集上进行,涵盖单句和句对分类任务,评估了三种语言模型(RoBERTa-large、T5-large、Llama3.2-1B)以及两个大模型(Llama3.2-3B、Llama3-8B)的合并性能。对比了五种主流合并方法(Task Arithmetic、Fisher、RegMean、TIES、EMR)。
- 设置合理性:数据集选择广泛,覆盖多种自然语言理解任务,模型选择包括编码器、编码-解码器和解码器架构,体现了方法的普适性测试。实验前、中、后的超参数设置参考了现有工作,具有可比性。
- 结果分析:OSRM在大多数合并方法和模型上显著提升了平均性能,例如在RoBERTa-large上,TA合并的平均性能从70.04%提升到76.59%;在T5-large上,RegMean提升了3.76%。在单任务性能上,OSRM的影响较小,平均差距不到1%,甚至在某些数据集上优于基线。然而,在某些任务(如QNLI上的Fisher合并)和大模型(如Llama3-8B上的TIES)上,改进幅度有限甚至略逊于基线,作者解释为大模型自身知识增加导致合并性能自然提升,但这可能也反映了方法对模型规模的适应性问题。
- 鲁棒性分析:OSRM对合并超参数(如缩放系数λ)表现出较强鲁棒性,对样本数量k和任务数量N的适应性较好,尤其在任务数量较多时优势明显。但样本数量增加并不总是带来性能提升,可能与数据分布中知识重叠有关,实验未完全解释这一现象。
- 批判性思考:实验设计较为全面,但结果显示OSRM并非在所有场景下都有效,尤其在大模型和某些任务上的表现不稳定,提示方法可能对数据分布和模型特性敏感。此外,实验未深入探讨任务间相关性对合并效果的影响,这可能是性能波动的一个关键因素。
Further Thoughts
OSRM方法通过正交子空间约束减少LoRA模型合并中的干扰,这一思路启发了我对模型参数与数据分布交互的更深思考。未来是否可以将这一思想扩展到其他参数高效微调方法(如Prefix Tuning或Adapter)中,以解决类似的多任务干扰问题?此外,作者提到任务间知识重叠可能影响正交性约束的效果,这让我联想到多任务学习中的任务相关性研究,例如通过任务聚类或共享表示学习来优化合并策略,OSRM是否可以与这些方法结合,进一步提升性能?另一个有趣的方向是探索OSRM在大模型上的适用性问题,是否可以通过自适应调整正交性约束强度来适应不同规模模型的特性?最后,考虑到模型合并在边缘设备部署中的重要性,OSRM对内存和计算效率的优化(如样本特征平均)是否足以支持实时应用场景,仍需进一步验证和改进。