本文提出了一种基于视觉-语言模型的定义引导提示技术和UnHateMeme框架,用于检测和缓解多模态模因中的仇恨内容,通过零样本和少样本提示实现高效检测,并生成非仇恨替代内容以保持图像-文本一致性,在实验中展现出显著效果。
Vision Foundation Model, Multimodal Systems, Classification, Generative AI, AI Ethics, Human-AI Interaction
Minh-Hao Van, Xintao Wu
University of Arkansas
Generated by grok-3
Background Problem
随着社交媒体的快速发展,多模态模因(结合图像和文本的表达形式)被广泛用于幽默或讽刺表达,但也常被滥用为传播针对个人或群体的仇恨言论的工具。检测仇恨模因已成为社交媒体平台的重要任务,但将其转化为非仇恨内容的研究仍存在显著空白。本文聚焦于解决两个关键问题:一是准确检测多模态模因中的仇恨内容(包括单模态和多模态仇恨),二是通过生成替代文本或图像,将仇恨模因转化为非仇恨版本,同时保持图像与文本的语义一致性,以促进安全的在线环境。
Method
本文提出了两种主要方法:
- 定义引导的提示技术(Definition-guided Prompting):用于仇恨模因检测,通过为视觉-语言模型(VLMs)提供详细的仇恨定义和分类标准,增强模型的推理能力,分为零样本和少样本两种设置。在少样本设置中,使用基于检索的上下文示例选择(RICES)方法,通过CLIP模型计算相似性,选择最相关的示例以提升检测效果。
- UnHateMeme框架:一个统一的端到端框架,用于缓解仇恨模因中的仇恨内容,包含三个核心任务:分析仇恨类型(单模态或多模态)、识别仇恨来源(图像、文本或两者),以及生成替代内容。框架以GPT-4o为核心推理组件,通过任务特定的提示生成非仇恨的替代文本或图像描述,并结合CLIP模型从图像库中匹配最合适的替代图像,同时使用GroundingDINO、SAM和Inpainting Anything等工具移除原始模因中的文本,确保替代内容与另一模态保持一致性。
Experiment
实验分为两个部分:
- 仇恨模因检测:使用Hateful Memes Challenge数据集(包含8500个训练样本,1000个已见测试样本和2000个未见测试样本),对比了22个基线模型(包括挑战赛获奖者和传统深度学习模型)。采用的VLMs包括LLaVA、Gemini Pro Vision和GPT-4o,使用定义引导提示在零样本和少样本设置下测试。结果显示,GPT-4o在已见测试集上的准确率(75.5%)和AUROC(74.2%)均优于所有基线,在未见测试集上准确率(76.85%)也表现最佳,尽管AUROC略低于部分挑战赛获奖者。少样本设置进一步提升了性能,验证了提示设计的有效性。然而,GPT-4o在未使用OCR文本时表现更优,原因未深入探讨。
- 仇恨模因缓解:针对490个已识别的仇恨模因,使用UnHateMeme框架生成缓解后的模因,并通过7名领域专家进行人工评估,基于非仇恨性(non-hatefulness)和图像-文本一致性(image-text coherence)两个标准。结果显示,UnHateMeme在非仇恨性上达到88.4%(对比Naïve Generation的60.2%),一致性上达到84.5%(对比81.8%),68.8%的缓解模因满足社交媒体分享标准(对比41.84%)。实验设计合理,但人工评估的主观性可能影响结果可靠性,且缺乏自动化评估指标,实验规模较小,未充分验证框架在不同文化背景下的泛化性。
Further Thoughts
本文提出的UnHateMeme框架在缓解仇恨内容方面展现了潜力,但其依赖GPT-4o的生成能力可能面临模型偏见或文化适应性问题,例如对特定文化背景下的隐含仇恨或幽默的误解,这可能导致生成的替代内容不恰当或引发新的争议。未来研究可以探索结合多语言和多文化数据集进行测试,以验证框架的泛化性。此外,人工评估的主观性问题可以通过引入自动化评估指标(如语义相似度或情感分析)来缓解。另一个有趣的方向是与生成式模型(如Stable Diffusion)结合,如论文结论所提,探索直接生成替代图像的可能性,而不是从预存图像库中选择,这可能进一步提升缓解内容的创造性和一致性。最后,本文的研究与AI伦理领域密切相关,可以与其他领域(如AI在教育或公共政策中的应用)结合,探讨如何通过技术干预塑造更积极的在线社交环境,同时避免技术滥用或过度审查的风险。