Skip to content
Go back 2504.21423 arXiv logo

Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision

Published:  at  04:32 PM
54.39 🤔

本文提出Diff-Prompt方法,使用扩散模型基于掩码监督生成细粒度提示信息,显著提升预训练多模态模型在复杂指代表达理解任务上的性能,同时保持高效微调。

Generative AI, Diffusion Model, Prompt Engineering, Fine-tuning, Multimodal Systems, Representation Learning

Weicai Yan, Wang Lin, Zirun Guo, Ye Wang, Fangming Feng, Xiaoda Yang, Zehan Wang, Tao Jin

Zhejiang University

Generated by grok-3-mini-latest

Background Problem

提示学习在微调预训练多模态模型时显示出有前景的结果,但应用于更复杂和细粒度的任务时,性能提升有限。原因是现有方法通过损失反向传播直接优化提示生成过程中的参数,这限制了提示表示的丰富性和特异性。具体来说,现有的提示学习方法存在两个主要问题:一是不同模态的提示独立学习,无法建立模态间连接;二是只能学习全局提示,无法针对特定输入生成细粒度提示。这些问题在处理需要考虑模态间复杂关系的任务时(如指代表达理解)会导致性能提升有限,甚至不如基础模型。

Method

Experiment

Further Thoughts

这项工作启发了使用生成模型增强提示学习的潜力,例如可以将扩散模型扩展到其他模态融合任务中,或结合控制Net-like方法实现更精确的条件生成;此外,提示生成器的多步退化过程可能启发更高效的一步生成模型,以减少计算开销;同时,与其他扩散模型相关研究(如DreamBooth)结合,可能提升零样本泛化能力,但需注意潜在过拟合风险和计算资源限制。



Previous Post
Synergizing RAG and Reasoning: A Systematic Review
Next Post
W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models