Skip to content
Go back 2502.10749 arXiv logo

LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging

Published:  at  11:22 AM
91.54 🤔

本文提出LORE-MERGING框架,通过低秩估计构建近似基础模型和任务向量,无需访问原始基础模型即可实现模型合并,并在多个基准数据集上展现出优于传统方法的性能。

Large Language Model, Fine-tuning, Low-Rank Adaptation, Efficiency, Multimodal Systems

Zehua Liu, Han Wu, Yuxuan Yao, Ruifeng She, Xiongwei Han, Tao Zhong, Mingxuan Yuan

Huawei Noah’s Ark Lab, City University of Hong Kong

Generated by grok-3

Background Problem

大型语言模型(LLMs)在各种实际应用中表现出色,但针对特定任务的微调(fine-tuning)通常能带来更好的性能。模型合并(model merging)作为一种无需额外训练即可构建多任务模型的技术,近年来受到广泛关注。然而,现有基于任务向量(task vector)的方法存在两大局限:一是需要访问基础模型参数,且对参数变化高度敏感;二是任务向量间的干扰问题,即使采用稀疏估计(sparse estimation)也难以完全避免,同时稀疏化可能丢失任务特定特征。为此,本文提出了一种基于低秩估计的模型合并框架LORE-MERGING,旨在无需基础模型参数的情况下,通过低秩任务向量减少干扰并保留任务特定信息。

Method

LORE-MERGING的核心思想是通过低秩估计(low-rank estimation)构建一个近似的基础模型,并结合低秩任务向量来逼近微调模型(fine-tuned models)的行为,而无需访问原始基础模型。具体步骤如下:

批判性思考:虽然低秩估计理论上能减少任务向量间的干扰,但其假设任务向量具有少量主导奇异值可能并不适用于所有场景,尤其是在任务差异较大时,低秩约束可能导致重要信息的丢失。此外,优化问题的计算复杂度较高,尤其是在大规模模型中,坐标下降法的收敛速度和实际可行性值得进一步探讨。

Experiment

实验在多个基准数据集上评估了LORE-MERGING的性能,包括GSM8K、MATH(数学问题)、MMLU、GLUE(常识推理)和MBPP(代码任务),以及数学优化建模任务(MAMO和NL4OPT)。使用的模型包括DeepSeek系列和LLaMA系列的多个变体,同时对比了Average Merging、DARE和TIES-Merging等基线方法。

Further Thoughts

LORE-MERGING提供了一个无需基础模型参数即可进行模型合并的新视角,这在实际应用中具有重要意义,尤其是在模型参数不可获取或模型经过长时间微调导致参数显著偏离的场景中。然而,其低秩估计方法可能在任务多样性较高或模型架构异构的情况下遇到挑战。未来的研究可以探索如何结合自适应秩选择(adaptive rank selection)来动态调整低秩约束,以更好地适应不同任务的需求。此外,论文中提到的异构模型合并是一个值得深入探索的方向,可以考虑结合跨架构的表示学习(cross-architecture representation learning)技术来解决参数空间不一致的问题。另一个有趣的思考点是,是否可以将LORE-MERGING与联邦学习(Federated Learning)结合,在分布式环境中实现多任务模型的合并,同时保护数据隐私,这可能为分布式AI系统提供新的解决方案。



Previous Post
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
Next Post
Incentivizing Strong Reasoning from Weak Supervision