Skip to content
Go back 2504.18333 arXiv logo

Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections

Published:  at  04:30 PM
72.07 🤔

本文通过提出攻击框架和实验评估,揭示了LLM-as-a-judge系统的prompt injection漏洞,并推荐使用多模型委员会等策略提升鲁棒性。

Large Language Model, Robustness, Safety, Human-AI Interaction, Multimodal Systems

Narek Maloyan, Dmitry Namiot

Independent Researchers

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)被越来越多地用于自动评估文本质量、代码正确性和论点强度,提供可扩展且成本效益高的替代人类评估的方法。研究显示LLM判断与人类判断高度相关,但这些系统易受adversarial attacks,尤其是prompt injection攻击的影响,可能操纵评估结果,导致不可靠性。本文从学术文献和Kaggle比赛中获取insights,调查LLM-as-a-judge系统的漏洞,旨在揭示其潜在风险并提出改进建议。

Method

本文提出一个全面框架,用于开发和评估针对LLM-as-a-judge系统的adversarial attacks。该框架区分content-author attacks(恶意内容提交)和system-prompt attacks(评估模板被破坏),包括三个组件:framework component(确保注入与上下文融合)、separator component(创建上下文边界,如使用复杂词汇或格式中断)和disruptor component(执行恶意指令,如直接命令输出特定分数)。攻击变体有Basic Injection(简单指令注入)、Complex Word Bombardment(使用复杂词汇轰炸)、Contextual Misdirection(结合所有组件的复杂攻击)和Adaptive Search-Based Attack(使用遗传算法基于模型反馈优化攻击字符串)。实验中通过系统比较这些攻击,强调不修改模型本身,只在推理阶段注入攻击。

Experiment

实验涉及五种模型(Gemma-3-27B-Instruct、Gemma-3-4B-Instruct、Llama-3.2-3B-Instruct、GPT-4和Claude-3-Opus)、四种评价任务(ppe human preference、search arena v1 7k、mt bench和code review),并测试了多种防御机制(如perplexity check、instruction filtering和multi-model committees)。每个条件使用n=50个prompt,采用bootstrap置信区间和t检验进行统计分析。结果显示,Adaptive Search-Based Attack成功率最高(73.8%),小型模型更易受攻击(Gemma-3-4B平均65.9%),multi-model committees能显著降低攻击成功率(7模型委员会成功率降至10.2-19.3%)。实验设置全面合理,覆盖不同模型和任务,统计方法严谨,结果符合预期,证明了攻击的有效性和防御策略的可行性。

Further Thoughts

论文中多模型委员会的防御策略启发我们,在其他AI应用中采用ensemble methods可以提高整体鲁棒性;攻击方法的transferability差异提示需要开发更通用的防御机制;此外,与AdvPrompter等工作的比较显示,AI安全领域的攻击与防御是动态的arms race,未来可能需要结合formal verification等方法来提升LLM的安全性,并探索其在多模态系统中的扩展。



Previous Post
Quantum-Enhanced LLM Efficient Fine Tuning
Next Post
Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement