Skip to content
Go back 2504.1704 arXiv logo

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

Published:  at  04:29 PM
63.91 🤔

本文提出DYMU框架,通过动态令牌合并和虚拟取消合并的训练-free方法,显著提高了VLMs的计算效率,同时在多个基准上保持了与完整模型相似的性能。

Vision-Language Model, Dynamic Token Merging, Computational Efficiency, Visual Token Reduction, Multimodal Systems, Training-Free Approach

Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

University of Illinois Urbana-Champaign, Salesforce Research

Generated by grok-3-mini-latest

Background Problem

本工作的起点是解决视觉语言模型(VLMs)中的计算效率问题。VLMs通常使用视觉编码器提取图像特征,并生成固定长度的视觉令牌,这些令牌数量不依赖于图像内容的复杂性,导致不必要的计算开销。例如,在处理高分辨率图像时,视觉令牌可能占主导地位,而简单图像也使用相同数量的令牌,造成资源浪费。论文解决了关键问题:如何动态调整视觉令牌的数量以适应图像复杂性,同时在不进行额外训练的情况下保持模型性能,从而减少计算负担并提高VLMs的实际应用效率。

Method

Experiment

Further Thoughts

这个方法启发了在其他模态如视频或3D数据中应用动态压缩技术,以减少冗余信息;此外,可以探索与高级视觉工具(如背景移除或物体检测)的结合,进一步提升效率;同时,针对空间敏感任务如TextVQA,未来可融入更多先验知识来最小化性能损失;这也与模型蒸馏或稀疏注意力机制相关,潜在地推动更泛化的高效多模态模型发展。



Previous Post
SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation
Next Post
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness