Skip to content
Go back 2504.20996 arXiv logo

X-Fusion: Introducing New Modality to Frozen Large Language Models

Published:  at  04:31 PM
66.52 🤔

本文提出X-Fusion框架,通過凍結LLM參數並添加雙塔結構,高效實現多模態理解和生成,同時保留原始語言能力。

Large Language Model, Multimodal Systems, Pre-training, Fine-tuning, Image Generation, Text-to-Image

Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li

University of California, Los Angeles, University of Wisconsin–Madison, Adobe Research

Generated by grok-3-mini-latest

Background Problem

研究背景是大型語言模型(LLMs)在語言處理任務上取得了空前成功,但人類溝通涉及多種模態,如視覺,因此需要一個真正通用的AI模型能夠理解、推理和生成文本及視覺信息。現有方法要麼從零訓練統一模型,計算資源需求巨大,要麼微調預訓練LLMs引入視覺能力,但可能導致語言能力下降。本文的工作起點是重用預訓練LLMs,高效引入新模態,同時保留其語言能力。解決的關鍵問題包括:如何在不犧牲語言性能的情況下,實現視覺理解和生成,降低計算成本,並提供更高效的多模態整合策略。

Method

Experiment

Further Thoughts

X-Fusion的模塊化設計不僅適用於視覺模態,還可擴展到音頻或視頻,促進更通用的多模態系統發展;與LMFusion等並行工作比較,X-Fusion的獨立塔設計提供更大靈活性,可能在跨模態推理中表現更優;論文對數據質量的強調(如噪聲控制)啟發了其他領域,如醫療影像分析中的數據增強策略;未來,結合強化學習或聯邦學習,可能提升模型在動態環境中的適應性,並減少對大型數據的需求。



Previous Post
Compact Recurrent Transformer with Persistent Memory
Next Post
Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant