Skip to content
Go back 2503.17987 arXiv logo

Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning

Published:  at  04:27 PM
58.67 🤔

本文提出Reason2Attack方法,通过基于Frame Semantics的CoT示例合成和带攻击过程奖励的强化学习,增强LLM的推理能力,以高效生成对抗性提示实现对T2I模型的越狱攻击。

Generative AI, Text-to-Image, Reasoning, Safety, Reinforcement Learning, AI Ethics

Chenyu Zhang, Lanjun Wang, Yiwen Ma, Wenhui Li, An-An Liu

Tianjin University

Generated by grok-3-mini-latest

Background Problem

文本到图像(T2I)模型在生成高保真图像的同时,也面临潜在滥用风险,如生成敏感内容(包括色情、暴力、令人不安和非法图像),这可能破坏公共道德、加剧社会偏见,并对青少年心理健康和社会稳定造成威胁。为防范此风险,研究者开发了各种安全策略,如安全过滤器(包括文本和图像过滤)。然而,现有的越狱攻击方法旨在生成能够绕过这些安全过滤器的对抗性提示,但这些方法存在局限性:伪词-based方法需要专业知识且生成提示不流畅,而LLM-based方法虽能生成流畅提示,但由于LLM对T2I模型和安全策略的理解有限,往往需要大量查询才能成功攻击,易被安全系统检测并阻塞,限制了实际应用。因此,本工作从提升LLM推理能力入手,旨在解决越狱攻击效率低下和查询次数过多的问题,通过将攻击任务整合到LLM的后训练过程中,提高攻击成功率和效率。

Method

Experiment

Further Thoughts

这项工作展示了通过增强LLM推理能力来改进攻击方法的潜力,不仅可以扩展到其他生成模型的安全评估中(如语音或视频生成),还可以启发防御策略的发展,例如在LLM训练中整合更robust的安全反馈机制;此外,它与AI安全领域的red-teaming研究相关,强调了在模型部署前进行全面攻击测试的重要性,以防止类似漏洞被恶意利用;未来,可能结合多模态融合技术,进一步提升攻击的泛化能力,或探索如何将这种推理增强方法应用于积极领域,如自动生成安全提示以强化模型的鲁棒性。



Previous Post
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference
Next Post
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition