Skip to content
Go back 2505.19892 arXiv logo

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

Published:  at  11:19 AM
88.24 🤔

本文提出一个多模态大语言模型(MLLM)融合基准和改进的任务向量优化方法(WUDI v2),通过低秩近似去除噪声并优化合并向量,在多任务和跨模态融合实验中取得平均2.48%的性能提升,展现了无需数据训练即可构建高性能MLLMs的潜力。

Multimodal Systems, Large Language Model, Foundation Model, Parameter-Efficient Fine-Tuning, Representation Learning, Efficiency

Yongxian Wei, Runxi Cheng, Weike Jin, Enneng Yang, Li Shen, Lu Hou, Sinan Du, Chun Yuan, Xiaochun Cao, Dacheng Tao

Tsinghua University, Huawei Noah’s Ark Lab, Sun Yat-sen University, Nanyang Technological University

Generated by grok-3

Background Problem

基础模型由于资源密集型的训练需求,更新周期较慢,而领域特定模型在更新间隙不断改进。模型融合(Model Merging)旨在将多个专家模型整合为一个更强大的统一模型,以降低存储和部署成本,并支持去中心化的模型开发。然而,目前模型融合研究主要集中在视觉分类模型或大语言模型(LLMs)的代码和数学任务上,缺乏针对多模态大语言模型(MLLMs)的系统性基准和研究,尤其是在任务分类和模态整合方面。本文试图解决这一问题,探索如何通过模型融合提升MLLMs的多任务能力,并整合不同模态(如视觉、音频、视频)以迈向全能语言模型(Omni-language Model)。

Method

本文提出了一种新的模型融合基准和方法,具体如下:

Experiment

实验在提出的MLLM融合基准上进行,具体设置和结果如下:

Further Thoughts

本文提出的模型融合方法为MLLMs的发展提供了一个有趣的视角,尤其是在资源受限场景下通过数据无关的方式整合多任务和多模态能力。然而,我认为其潜力可能被高估,特别是在与混合训练的对比中,融合方法是否能在更大规模模型和更复杂任务(如长上下文推理或多语言场景)上保持竞争力仍需验证。此外,跨模态融合迈向Omni-language模型的方向令人振奋,但目前实验仅限于三种模态(视觉、音频、视频),未来可探索更多模态(如触觉或传感器数据)以及模态间冲突的理论分析。另一个值得思考的点是,模型融合是否能与最近的联邦学习(Federated Learning)结合,通过去中心化的方式进一步降低计算成本,同时保护数据隐私?这可能是一个有前景的交叉研究方向,尤其是在AI for Science或AI in Security等领域的应用中。



Previous Post
Graceful Forgetting in Generative Language Models
Next Post
Thinker: Learning to Think Fast and Slow