本文提出MMRL及MMRL++框架,通过共享表示空间和解耦策略增强视觉-语言模型的少样本适配能力,并利用参数高效的SRRA和PRC机制提升泛化性和训练稳定性,在多个数据集上取得最优性能。
Representation Learning, Transfer Learning, Few-Shot Learning, Multimodal Systems, Vision Foundation Model
Yuncheng Guo, Xiaodong Gu
Fudan University
Generated by grok-3
Background Problem
视觉-语言模型(VLMs)如CLIP在多种任务上展现了强大的零样本性能,但将其适配到特定下游任务时,特别是在少样本数据场景下,常常面临过拟合问题,导致在新任务上的泛化能力下降。本文旨在解决这一挑战,提出了一种新的多模态表示学习框架(MMRL),通过引入共享的、模态无关的表示空间,增强跨模态交互,同时保持预训练模型的泛化能力;进一步通过MMRL++改进版本,实现参数高效的适配和更稳定的训练过程。
Method
本文提出了两种主要方法:
- MMRL框架:
- 核心思想:在视觉和语言编码器的高层引入一个共享的可学习表示空间,通过表示令牌(representation tokens)促进跨模态交互,同时解耦类令牌(class token)和表示特征以保留预训练知识和任务特定适应性。
- 实现步骤:初始化一个共享表示空间R,通过可学习的对齐器(representation aligner)将空间令牌投影到视觉和文本编码器的上层(从第J层开始),避免干扰低层的通用表示;训练时,优化表示特征(可训练投影层)和类特征(固定投影层),并通过正则化项对齐类特征与预训练模型的零样本特征;推理时,基类任务结合两类特征,新类任务仅使用类特征以保证泛化性。
- 关键点:避免浅层提示插入以保护预训练知识,通过解耦策略平衡适应性和泛化能力。
- MMRL++改进:
- 核心思想:针对MMRL参数量大和层间隔离的问题,引入共享-残差表示对齐器(SRRA)和渐进表示组合(PRC)机制,减少可训练参数并增强层间交互。
- 实现步骤:SRRA通过共享对齐器和低秩残差分解减少参数量,同时促进梯度共享;PRC通过层间表示令牌的加权组合,传递实例特定信息,提升训练稳定性和泛化能力。
- 关键点:参数效率显著提升,但计算开销(如训练时间)未明显降低,可能限制实际应用。
- 批判性思考:MMRL的方法创新性在于共享表示空间和解耦策略,但其复杂性可能导致训练不稳定,尤其是在数据极少的情况下;MMRL++的SRRA和PRC虽然减少了参数,但未充分证明其对极端场景(如1-shot)的适应性,且计算开销问题未解决。
Experiment
实验在15个数据集上进行,涵盖基类到新类泛化、跨数据集评估、领域泛化和少样本学习四个任务,主要使用16-shot设置,基于CLIP的ViT-B/16模型。
- 实验设置:基类到新类泛化在11个数据集上评估,训练仅使用基类,测试包括基类和新类;跨数据集评估在ImageNet上训练后直接测试其他数据集;领域泛化测试ImageNet训练模型在四个变体数据集上的表现;少样本学习测试1到16-shot场景。所有结果取三次独立运行的平均值。
- 结果分析:MMRL和MMRL++在基类到新类泛化任务中取得新的最优性能,平均HM(harmonic mean)分别比前最佳方法MMA提升1.33%和1.90%;MMRL++在新类准确率上提升明显(+1.16%),显示出更好的泛化能力。跨数据集和领域泛化任务中,MMRL++平均准确率达67.49%,在部分数据集上表现突出。少样本学习中,MMRL随样本量增加优势更明显。
- 评价与批判:实验设置较为全面,覆盖多种任务和数据集,但对HM指标的依赖可能掩盖基类和新类性能的不平衡问题,未充分探讨在极少样本(如1-shot)下的表现是否稳健;此外,MMRL++虽参数更少,但训练时间与MMRL相近,未体现计算效率优势,实际应用价值需进一步验证;部分数据集(如EuroSAT)上新类性能波动较大,稳定性问题未被深入讨论。
Further Thoughts
MMRL和MMRL++的共享表示空间和解耦策略为多模态学习提供了一个有趣的视角,特别是在少样本场景下平衡适应性和泛化能力方面,可能对其他领域如图像生成或多模态问答有启发。然而,其复杂的设计可能在计算资源受限的场景下难以部署,未来可以探索更轻量化的实现方式。此外,论文未讨论的方法在不同模态数据分布(如文本主导或图像主导任务)下的表现差异,可能是一个值得深入研究的方向。结合最近的一些工作,如基于扩散模型的多模态生成任务,MMRL的表示空间或许可以作为跨模态特征融合的基础,但需要验证其在新任务中的可迁移性。最后,MMRL++的层间交互机制(PRC)可能与其他领域的层级学习(如GNN中的信息传播)有潜在联系,探索这种跨领域借鉴可能带来新的突破。