LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging

本文提出LORE-MERGING框架，通过低秩估计构建近似基础模型和任务向量，无需访问原始基础模型即可实现模型合并，并在多个基准数据集上展现出优于传统方法的性能。

Large Language Model, Fine-tuning, Low-Rank Adaptation, Efficiency, Multimodal Systems

Zehua Liu, Han Wu, Yuxuan Yao, Ruifeng She, Xiongwei Han, Tao Zhong, Mingxuan Yuan

Huawei Noah’s Ark Lab, City University of Hong Kong

Generated by grok-3

Background Problem

大型语言模型（LLMs）在各种实际应用中表现出色，但针对特定任务的微调（fine-tuning）通常能带来更好的性能。模型合并（model merging）作为一种无需额外训练即可构建多任务模型的技术，近年来受到广泛关注。然而，现有基于任务向量（task vector）的方法存在两大局限：一是需要访问基础模型参数，且对参数变化高度敏感；二是任务向量间的干扰问题，即使采用稀疏估计（sparse estimation）也难以完全避免，同时稀疏化可能丢失任务特定特征。为此，本文提出了一种基于低秩估计的模型合并框架LORE-MERGING，旨在无需基础模型参数的情况下，通过低秩任务向量减少干扰并保留任务特定信息。

Method

LORE-MERGING的核心思想是通过低秩估计（low-rank estimation）构建一个近似的基础模型，并结合低秩任务向量来逼近微调模型（fine-tuned models）的行为，而无需访问原始基础模型。具体步骤如下：

问题建模：将模型合并问题形式化为一个优化问题，目标是最小化近似基础模型参数 $θ_0$ 与每个微调模型参数 $θ_i$ 之间的差异，即 $θ_0 + δ_i ≈ θ_i$ ，其中 $δ_i$ 为低秩任务向量。
优化目标：通过引入核范数（nuclear norm）惩罚来确保 $δ_i$ 的低秩特性，优化目标为： $\min_{\boldsymbol{\theta}_0, \boldsymbol{\delta}_1, \dots, \boldsymbol{\delta}_n} \sum_{i=1}^n \left( \|\boldsymbol{\theta}_0 + \boldsymbol{\delta}_i - \boldsymbol{\theta}_i\|_F^2 + \mu \|\boldsymbol{\delta}_i\|_*^2 \right)$ 其中 $\mu$ 为超参数。
求解方法：采用坐标下降法（coordinate descent）迭代更新 $θ_0$ 和 $δ_i$ ，并通过奇异值阈值（Singular Value Thresholding, SVT）技术获得闭式解。
合并策略：优化完成后，使用平均合并（Average Merging）方法将低秩任务向量与近似基础模型结合。

批判性思考：虽然低秩估计理论上能减少任务向量间的干扰，但其假设任务向量具有少量主导奇异值可能并不适用于所有场景，尤其是在任务差异较大时，低秩约束可能导致重要信息的丢失。此外，优化问题的计算复杂度较高，尤其是在大规模模型中，坐标下降法的收敛速度和实际可行性值得进一步探讨。

Experiment

实验在多个基准数据集上评估了LORE-MERGING的性能，包括GSM8K、MATH（数学问题）、MMLU、GLUE（常识推理）和MBPP（代码任务），以及数学优化建模任务（MAMO和NL4OPT）。使用的模型包括DeepSeek系列和LLaMA系列的多个变体，同时对比了Average Merging、DARE和TIES-Merging等基线方法。

结果：在大多数指标上，LORE-MERGING表现优于基线方法，整体平均得分最高（57.75），特别是在数学问题和优化建模任务上。然而，在MATH（DPSK & Numina）和MBPP数据集上表现不如预期，作者归因于基础模型间的性能差距（如DeepSeek-Math在MATH上的得分为36.2，而NuminaMath为55.8）。
消融实验：对超参数 $\mu$ 和 $\lambda$ 的选择进行了分析，发现 $\mu=0.01$ 和 $\lambda=1.0$ 时性能最佳，且方法对超参数变化较为鲁棒。
实验设计合理性：实验覆盖了多种任务和模型，设置较为全面，但对某些数据集上性能不佳的解释较为表面，仅归因于模型性能差距，未深入探讨低秩估计本身的局限性。此外，优化建模任务的实验依赖于自微调模型，缺乏公开模型的验证，可能存在结果偏差。
批判性思考：虽然结果显示LORE-MERGING在某些任务上有效，但其在性能差距较大的模型合并中的表现不稳定，表明低秩估计对模型差异的适应性可能有限。此外，实验未涉及计算成本的详细分析，而优化问题的求解在大规模模型中可能带来显著开销。

Further Thoughts

LORE-MERGING提供了一个无需基础模型参数即可进行模型合并的新视角，这在实际应用中具有重要意义，尤其是在模型参数不可获取或模型经过长时间微调导致参数显著偏离的场景中。然而，其低秩估计方法可能在任务多样性较高或模型架构异构的情况下遇到挑战。未来的研究可以探索如何结合自适应秩选择（adaptive rank selection）来动态调整低秩约束，以更好地适应不同任务的需求。此外，论文中提到的异构模型合并是一个值得深入探索的方向，可以考虑结合跨架构的表示学习（cross-architecture representation learning）技术来解决参数空间不一致的问题。另一个有趣的思考点是，是否可以将LORE-MERGING与联邦学习（Federated Learning）结合，在分布式环境中实现多任务模型的合并，同时保护数据隐私，这可能为分布式AI系统提供新的解决方案。