Tag: Text-to-Image
All the articles with the tag "Text-to-Image".
-
X-Fusion: Introducing New Modality to Frozen Large Language Models
本文提出X-Fusion框架,通過凍結LLM參數並添加雙塔結構,高效實現多模態理解和生成,同時保留原始語言能力。
-
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
本文提出Token-Shuffle方法,通过利用视觉词汇维度冗余动态合并和恢复图像令牌,实现高效的高分辨率文本到图像生成,同时在统一自回归框架下保持出色性能。
-
Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning
本文提出Reason2Attack方法,通过基于Frame Semantics的CoT示例合成和带攻击过程奖励的强化学习,增强LLM的推理能力,以高效生成对抗性提示实现对T2I模型的越狱攻击。