本文提出Reason2Attack方法,通过基于Frame Semantics的CoT示例合成和带攻击过程奖励的强化学习,增强LLM的推理能力,以高效生成对抗性提示实现对T2I模型的越狱攻击。
Generative AI, Text-to-Image, Reasoning, Safety, Reinforcement Learning, AI Ethics
Chenyu Zhang, Lanjun Wang, Yiwen Ma, Wenhui Li, An-An Liu
Tianjin University
Generated by grok-3-mini-latest
Background Problem
文本到图像(T2I)模型在生成高保真图像的同时,也面临潜在滥用风险,如生成敏感内容(包括色情、暴力、令人不安和非法图像),这可能破坏公共道德、加剧社会偏见,并对青少年心理健康和社会稳定造成威胁。为防范此风险,研究者开发了各种安全策略,如安全过滤器(包括文本和图像过滤)。然而,现有的越狱攻击方法旨在生成能够绕过这些安全过滤器的对抗性提示,但这些方法存在局限性:伪词-based方法需要专业知识且生成提示不流畅,而LLM-based方法虽能生成流畅提示,但由于LLM对T2I模型和安全策略的理解有限,往往需要大量查询才能成功攻击,易被安全系统检测并阻塞,限制了实际应用。因此,本工作从提升LLM推理能力入手,旨在解决越狱攻击效率低下和查询次数过多的问题,通过将攻击任务整合到LLM的后训练过程中,提高攻击成功率和效率。
Method
- 核心思想: 本文提出Reason2Attack (R2A) 方法,旨在通过增强LLM的推理能力来生成有效的对抗性提示,实现对T2I模型的越狱攻击。核心在于将越狱攻击任务整合到LLM的后训练过程中,包括CoT(Chain-of-Thought)示例合成管道和强化学习框架。
- 工作原理: R2A分为两个主要阶段。首先,利用基于Frame Semantics的CoT示例合成管道:给定敏感提示,识别敏感词,使用知识图谱(如ConceptNet)搜索相关术语,LLM生成上下文说明,然后基于这些生成和过滤有效的对抗性提示,最后合成CoT示例数据集用于监督微调LLM,以帮助LLM学习推理路径和输出格式。具体步骤包括:1) 搜索相关术语,2) 生成上下文说明,3) 生成并过滤有效对抗性提示,4) 合成CoT示例。其次,在强化学习阶段,针对稀疏奖励问题,设计了攻击过程奖励函数,考虑提示长度、提示隐蔽性和提示有效性(即是否绕过安全过滤器和图像语义相似度)。奖励函数公式为:,其中、和分别评估提示长度是否在阈值内、是否绕过安全策略和图像-文本相似度。最终,通过Group Relative Policy Optimization (GRPO)优化LLM参数。
- 主要步骤: 1) 监督微调阶段使用CoT数据集训练LLM;2) 强化学习阶段通过多角度奖励信号 fine-tune LLM,实现对各种敏感提示的适应性推理。
Experiment
- 数据集: 使用了自定义数据集,包括400个CoT示例(用于SFT,覆盖色情、暴力、令人不安和非法四类,每类100个)和2490个敏感提示(用于RL训练)。测试集独立于训练集,共400个敏感提示。还使用了CLIP模型评估图像-文本相似度,阈值设为0.26。
- 实验设置: 在多个T2I模型上进行黑盒攻击和可转移攻击,包括Stable Diffusion V1.4 (SD1.4)、Stable Diffusion V3 (SD3)和Flux。安全过滤器包括NSFW文本分类器和CLIP-based NSFW检测器。指标包括Perplexity (PPL, 越低越好,表示提示流畅性)、Attack Success Rate (ASR, 越高越好,表示攻击成功比例)和Query Number (Query, 越低越好,表示查询效率)。基线包括伪词-based方法(RAB、MMA、Sneaky)和LLM-based方法(PGJ、CMMA)。实验中,R2A的最大查询次数设为6,每个对抗提示生成4张图像,使用LVLM (InternVL2-8B) 评估图像是否NSFW。
- 结果分析: R2A在SD1.4上显著优于基线,平均ASR达0.90,Query仅2.5±1.7,而基线如CMMA的ASR为0.69,Query为21.7±11.4。消融实验证实SFT和RL组件的有效性,RL使用攻击过程奖励比简单攻击结果奖励表现更好。可转移攻击在SD3和Flux上ASR分别为0.78和0.68,优于基线。在商业模型DALL·E 3和Midjourney上,R2A的ASR显著提升(DALL·E 3从0.09到0.68)。结果符合预期,展示了R2A的高效性和可转移性,实验设置全面合理,覆盖多种模型和风险类别,并通过消融和超参数分析验证了方法的稳健性。
Further Thoughts
这项工作展示了通过增强LLM推理能力来改进攻击方法的潜力,不仅可以扩展到其他生成模型的安全评估中(如语音或视频生成),还可以启发防御策略的发展,例如在LLM训练中整合更robust的安全反馈机制;此外,它与AI安全领域的red-teaming研究相关,强调了在模型部署前进行全面攻击测试的重要性,以防止类似漏洞被恶意利用;未来,可能结合多模态融合技术,进一步提升攻击的泛化能力,或探索如何将这种推理增强方法应用于积极领域,如自动生成安全提示以强化模型的鲁棒性。