本文提出一个多模态大语言模型(MLLM)融合基准和改进的任务向量优化方法(WUDI v2),通过低秩近似去除噪声并优化合并向量,在多任务和跨模态融合实验中取得平均2.48%的性能提升,展现了无需数据训练即可构建高性能MLLMs的潜力。
Multimodal Systems, Large Language Model, Foundation Model, Parameter-Efficient Fine-Tuning, Representation Learning, Efficiency
Yongxian Wei, Runxi Cheng, Weike Jin, Enneng Yang, Li Shen, Lu Hou, Sinan Du, Chun Yuan, Xiaochun Cao, Dacheng Tao
Tsinghua University, Huawei Noah’s Ark Lab, Sun Yat-sen University, Nanyang Technological University
Generated by grok-3
Background Problem
基础模型由于资源密集型的训练需求,更新周期较慢,而领域特定模型在更新间隙不断改进。模型融合(Model Merging)旨在将多个专家模型整合为一个更强大的统一模型,以降低存储和部署成本,并支持去中心化的模型开发。然而,目前模型融合研究主要集中在视觉分类模型或大语言模型(LLMs)的代码和数学任务上,缺乏针对多模态大语言模型(MLLMs)的系统性基准和研究,尤其是在任务分类和模态整合方面。本文试图解决这一问题,探索如何通过模型融合提升MLLMs的多任务能力,并整合不同模态(如视觉、音频、视频)以迈向全能语言模型(Omni-language Model)。
Method
本文提出了一种新的模型融合基准和方法,具体如下:
- 基准设计:为MLLMs设计了一个包含多种任务(VQA、Geometry、Chart、OCR、Grounding)的融合基准,收集了每个任务至少10万样本的公开数据集,并选择InternVL2.5和Qwen2-VL两种视觉-语言模型进行全参数微调和LoRA微调实验。同时,探索了跨模态融合(视觉-语言、音频-语言、视频-语言模型整合)。
- 融合方法:提出了改进的任务向量优化方法(WUDI v2),基于WUDI Merging,通过低秩近似(Low-Rank Approximation)去除任务向量中的冗余噪声,并优化合并向量(Merged Vector)的稳定性。对于全参数微调,使用SVD分解和低秩近似提取任务向量的核心知识;对于LoRA微调,采用SGD优化器、初始化合并向量为任务向量均值,并直接进行低秩近似以避免合并向量范数过大导致语言能力崩溃。
- 关键问题与批评:虽然方法在理论上通过减少任务向量干扰来提升性能,但其改进幅度较小(平均2.48%),且未充分分析不同任务或模态间的冲突如何影响融合效果。此外,方法对低秩近似的参数选择(如top-k值)缺乏详细讨论,可能导致在某些任务上丢失关键信息。
Experiment
实验在提出的MLLM融合基准上进行,具体设置和结果如下:
- 数据集与模型:使用VQA、Geometry、Chart、OCR和Grounding任务的公开数据集(每个任务至少10万样本),对InternVL2.5(全参数微调)和Qwen2-VL(LoRA微调)进行训练和评估。跨模态融合实验基于Vicuna-7B,整合视觉、音频和视频模态。
- 实验设置:对比了10种模型融合方法(包括线性插值、稀疏化、SVD和优化方法),并与混合训练(Mixture Training)作为上界进行比较。评估指标覆盖多个任务特定数据集(如VizWiz、GQA、ChartQA等)。
- 结果分析:提出的WUDI v2方法在InternVL2.5和Qwen2-VL上分别取得57.44%和63.30%的平均性能,优于其他融合方法,且接近或超过混合训练结果。跨模态融合实验显示,融合模型在音频-视觉问答任务上显著优于单一模态模型,表明模态间互补性。实际Hugging Face模型融合实验也验证了方法的实用性。
- 批评与合理性:实验设计较为全面,涵盖多任务和多模态场景,但结果提升幅度有限(2.48%),且在某些任务(如Geometry)上表现不稳定,可能与数据集质量或任务冲突有关。此外,实验仅限于7B参数模型,未验证更大规模模型的效果,可能限制结论的普适性。数据集选择虽广泛,但中文数据集导致性能下降的问题未深入解决,实验设置中未充分考虑数据清洗对结果的影响。
Further Thoughts
本文提出的模型融合方法为MLLMs的发展提供了一个有趣的视角,尤其是在资源受限场景下通过数据无关的方式整合多任务和多模态能力。然而,我认为其潜力可能被高估,特别是在与混合训练的对比中,融合方法是否能在更大规模模型和更复杂任务(如长上下文推理或多语言场景)上保持竞争力仍需验证。此外,跨模态融合迈向Omni-language模型的方向令人振奋,但目前实验仅限于三种模态(视觉、音频、视频),未来可探索更多模态(如触觉或传感器数据)以及模态间冲突的理论分析。另一个值得思考的点是,模型融合是否能与最近的联邦学习(Federated Learning)结合,通过去中心化的方式进一步降低计算成本,同时保护数据隐私?这可能是一个有前景的交叉研究方向,尤其是在AI for Science或AI in Security等领域的应用中。