Skip to content
Go back 2504.21228 arXiv logo

CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks

Published:  at  04:32 PM
55.01 🤔

本文提出CachePrune方法,通过基于DPO损失的特征归因识别并修剪KV缓存中的关键神经元,防御间接提示注入攻击,同时保持模型响应质量。

Large Language Model, Safety, Robustness, Alignment, Human-AI Interaction

Rui Wang, Junda Wu, Yu Xia, Tong Yu, Ruiyi Zhang, Ryan Rossi, Lina Yao, Julian McAuley

Adobe Research, University of California San Diego, University of New South Wales, CSIRO’s Data61

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)容易受到间接提示注入攻击的影响,这种攻击通过在提示上下文中注入指令来覆盖用户提供的指令,导致模型偏离预期行为。这源于LLMs在解析提示结构时的根本局限性,即无法有效区分数据和指令。现有防御方法要么涉及重新训练模型,计算开销巨大,要么通过修改提示格式或引入额外测试时工作流来优先处理用户请求,但这些方法往往防御效果有限、可能干扰模型输出质量或增加计算负担。本文的工作起点是解决这一数据与指令的误对齐问题,旨在开发一种高效的防御机制。

Method

Experiment

Further Thoughts

这个方法强调了通过模型内部状态(如KV缓存)操纵来提升AI安全性的潜力,或许可以扩展到其他领域,如对抗样本防御或偏差缓解中;它突出了特征归因在解释性和鲁棒性构建中的作用,未来可与其他技术结合,例如与联邦学习整合以实现隐私保护的分布式防御,或应用于多模态模型中处理输入混淆的问题;此外,触发效应的发现可能启发更细粒度的模型行为分析,有助于开发更具适应性的AI系统。



Previous Post
Learning Explainable Dense Reward Shapes via Bayesian Optimization
Next Post
SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability