Skip to content
Go back 2505.22664 arXiv logo

Zero-Shot Vision Encoder Grafting via LLM Surrogates

Published:  at  11:23 AM
87.49 🤔

本文提出通过构建小型代理模型训练视觉编码器并零样本嫁接至大型LLM(如Llama-70B),在保持视觉理解能力的同时将VLM训练成本降低约45%。

Large Language Model, Vision Foundation Model, Multimodal Systems, Zero-Shot Learning, Pre-training, Efficiency

Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein

University of Maryland, Meta

Generated by grok-3

Background Problem

视觉语言模型(VLM)通常将中等规模的视觉编码器与大型语言模型(LLM)如Llama-70B结合,导致训练过程中解码器的计算负担极高。为了降低训练成本,本研究探索了一种策略:先使用小型语言模型训练视觉编码器,然后将其转移到大型LLM中。关键问题在于如何构建与目标LLM共享嵌入空间的小型代理模型(surrogate model),以实现视觉编码器的有效对齐和转移,同时显著减少训练资源消耗。

Method

本研究提出了一种构建小型代理模型的方法,用于训练视觉编码器并将其零样本嫁接(zero-shot grafting)到目标大型LLM中。核心步骤如下:

批判性思考:虽然方法在理论上通过保留早期层来维持嵌入空间一致性,但构建代理模型的过程依赖于手动识别转换点,可能对不同模型家族的适应性有限。此外,翻译器层的引入虽然简化了晚期阶段,但可能丢失了目标LLM的部分复杂推理能力,导致代理模型在某些任务上的表现不足。

Experiment

实验主要围绕Llama-3B、8B和70B模型展开,验证代理模型的有效性和零样本嫁接能力:

Further Thoughts

本研究的代理模型构建方法提供了一个有趣的视角,即通过分析LLM的预测轨迹来识别关键层并简化模型结构,这可能启发其他领域的模型压缩或迁移学习研究。然而,我认为其方法在通用性上存在潜在问题:不同LLM家族(如Qwen)的转换点位置差异较大,可能导致代理模型规模仍然过大(如Qwen2.5-72B的代理模型达56B),从而削弱成本优势。未来研究可以探索自动化识别转换点的方法,或结合知识蒸馏进一步压缩代理模型。此外,论文中提到的早期阶段层对常识推理和语言能力的存储作用(见附录A.14)可能与神经网络的可解释性研究相关联,值得进一步挖掘,例如是否可以通过早期层的特征提取能力来增强模型在特定任务上的表现,或用于构建更轻量级的任务专用模型。



Previous Post
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants
Next Post
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance