Skip to content
Go back 2505.09500 arXiv logo

Layered Unlearning for Adversarial Relearning

Published:  at  11:17 AM
77.78 🤔

本文提出分层遗忘(Layered Unlearning, LU)方法,通过多阶段逐步遗忘数据子集并诱导不同抑制机制,增强大型语言模型对对抗性重新学习的鲁棒性,尽管对语料库攻击仍显脆弱。

Large Language Model, Fine-tuning, Robustness, Safety, AI Ethics

Timothy Qian, Vinith Suriyakumar, Ashia Wilson, Dylan Hadfield-Menell

MIT

Generated by grok-3

Background Problem

大型语言模型(LLMs)在后训练(如微调、偏好学习或遗忘)后,其行为修改往往是脆弱的,容易被对抗性提示工程或重新学习绕过。研究表明,这种脆弱性可能源于后训练引入的浅层、上下文依赖的‘电路’(circuits),这些电路抑制特定响应模式,但容易被单一机制逆转。本文聚焦于机器遗忘(machine unlearning),旨在移除预训练模型中的特定知识或能力,解决的关键问题是:如何设计更鲁棒的后训练方法,以防止通过重新学习子集数据恢复整个遗忘数据集的性能。

Method

Experiment

Further Thoughts

LU的多阶段遗忘设计为后训练干预(如对齐和安全性)提供了一个有趣的视角,可能启发更模块化的模型行为控制策略。例如,其‘先训练无害但无能模型,再微调为有用同时保留无害性’的思路,与当前RLHF(强化学习人类反馈)和DPO(直接偏好优化)方法有潜在联系,但需要更深入研究如何在实际对齐任务中应用。此外,LU揭示的corpus-based攻击比MCQ-based攻击更强的现象,提示我们需要重新设计遗忘评估基准,纳入更接近真实世界的攻击场景,如利用公开语料库进行微调。另一个值得探索的方向是,是否可以通过神经网络的可解释性工具(如注意力机制分析)进一步验证LU的抑制机制是否真正独立,这可能为设计更鲁棒的遗忘方法提供理论支持。最后,LU的高计算成本和超参数敏感性问题,可能通过结合联邦学习或参数高效微调技术(如LoRA)得到缓解,这是一个值得未来研究的方向。



Previous Post
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
Next Post
MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores