Skip to content
Go back 2505.11883 arXiv logo

MINGLE: Mixtures of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging

Published:  at  11:24 AM
90.40 🤔

MINGLE提出了一种测试时持续模型合并方法,通过混合低秩专家架构和自适应空空间约束门控,利用少量无标签测试样本动态融合模型,显著提升了持续学习中的泛化性能并减少了灾难性遗忘。

Continual Learning, Test-Time Adaptation, Mixture of Experts, Parameter-Efficient Fine-Tuning, Classification, Robustness

Zihuan Qiu, Yi Xu, Chiyuan He, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li

University of Electronic Science and Technology of China, Dalian University of Technology

Generated by grok-3

Background Problem

持续学习(Continual Learning)旨在让模型逐步适应新任务而不遗忘先前知识,但传统方法需要持续访问原始训练数据,带来隐私和计算开销问题。持续模型合并(Continual Model Merging, CMM)通过直接在参数空间中融合独立微调的模型,提供了一种无需访问训练数据的可扩展解决方案。然而,现有CMM方法面临参数干扰导致的灾难性遗忘和对测试分布变化适应能力不足的问题。论文提出测试时持续模型合并(Test-Time Continual Model Merging, TTCMM)范式,利用当前任务的少量无标签测试样本动态指导合并过程,旨在解决上述问题。

Method

MINGLE(Mixtures of Null-Space Gated Low-Rank Experts)是一种基于测试时适应的持续模型合并方法,其核心思想和实现步骤如下:

批判性思考:虽然方法设计合理,但依赖少量种子样本进行TTA可能在样本代表性不足时导致过拟合或偏差。此外,空空间约束可能在任务特征高度重叠时限制新任务的学习能力,论文未充分探讨这一潜在局限性。

Experiment

实验在多个图像分类任务上进行评估,使用CLIP-ViT模型(ViT-B/32, ViT-B/16, ViT-L/14)作为骨干网络,涵盖8、14和20个任务的三个任务组,以测试方法的可扩展性。数据集采用FusionBench和MTIL基准,任务顺序通过10次随机排列评估鲁棒性。MINGLE在所有骨干网络和任务数量上显著优于现有方法,平均准确率(ACC)提升7-9%,并且几乎消除了后向转移(BWT)中的遗忘(表1)。在测试时分布偏移实验中,MINGLE在七种损坏类型下保持高准确率和接近零的BWT(表2)。消融研究(表4)表明测试时适应、空空间约束和自适应松弛策略逐步提升了性能和稳定性。计算效率分析(表5)显示方法在不同资源预算下具有灵活性。

批判性思考:实验设置较为全面,但对比方法的性能可能未完全优化(如WEMOE在持续场景下的直接应用失败),可能夸大了MINGLE的优势。此外,种子样本数量对结果的影响未深入分析,极端情况下(如样本极少或分布偏移剧烈)方法的鲁棒性存疑。实验结果虽然令人印象深刻,但未讨论在大规模任务或更复杂多模态数据上的可扩展性。

Further Thoughts

MINGLE的方法在持续模型合并领域展现了创新性,尤其是在无需访问训练数据的情况下通过测试时适应提升性能。然而,我认为其依赖少量种子样本的策略可能在实际应用中面临挑战,例如当测试数据分布与训练分布严重不一致时,少量样本可能无法充分代表任务特性,导致适应失败。未来可以探索结合生成模型或数据增强技术来扩充种子样本的多样性。此外,空空间约束门控机制在任务特征高度重叠的情况下可能限制新任务的学习能力,这与持续学习中常见的任务相关性问题相呼应,值得进一步研究如何动态调整正交约束以适应不同任务间的相关性。另一方面,MINGLE的MoE架构与近年来大型语言模型中的稀疏激活技术有相似之处,或许可以借鉴大型模型的训练策略(如专家选择优化)来进一步提升效率和性能。



Previous Post
MergeBench: A Benchmark for Merging Domain-Specialized LLMs
Next Post
Cyber Security Data Science: Machine Learning Methods and their Performance on Imbalanced Datasets