本文提出分层遗忘(Layered Unlearning, LU)方法,通过多阶段逐步遗忘数据子集并诱导不同抑制机制,增强大型语言模型对对抗性重新学习的鲁棒性,尽管对语料库攻击仍显脆弱。
Large Language Model, Fine-tuning, Robustness, Safety, AI Ethics
Timothy Qian, Vinith Suriyakumar, Ashia Wilson, Dylan Hadfield-Menell
MIT
Generated by grok-3
Background Problem
大型语言模型(LLMs)在后训练(如微调、偏好学习或遗忘)后,其行为修改往往是脆弱的,容易被对抗性提示工程或重新学习绕过。研究表明,这种脆弱性可能源于后训练引入的浅层、上下文依赖的‘电路’(circuits),这些电路抑制特定响应模式,但容易被单一机制逆转。本文聚焦于机器遗忘(machine unlearning),旨在移除预训练模型中的特定知识或能力,解决的关键问题是:如何设计更鲁棒的后训练方法,以防止通过重新学习子集数据恢复整个遗忘数据集的性能。
Method
- 核心思想: 提出分层遗忘(Layered Unlearning, LU),通过将数据划分为多个折叠(folds),并在多个阶段逐步遗忘累积的数据子集,同时保留剩余数据,诱导不同的上下文依赖抑制机制(inhibitors),从而增强对对抗性重新学习的鲁棒性。
- 具体实现:
- 将遗忘数据集划分为 k 个不相交的折叠 {F1, F2, …, Fk}。
- 在第 i 个阶段,遗忘前 i 个折叠的并集(F1 ∪ … ∪ Fi),同时保留剩余折叠(Fi+1 ∪ … ∪ Fk)和一个保留集 R 的性能。
- 使用现有的遗忘算法(如RMU或SimNPO)作为基本单元,在每个阶段调整模型参数,形成不同的抑制机制。
- 关键假设: 不同阶段形成的抑制机制是功能上独立的,重新学习某个折叠只会移除与其相关的抑制机制,而不会影响其他折叠的遗忘效果。
- 批评: 虽然理论上LU通过多层防御避免单一失败点,但论文未提供足够的证据证明抑制机制的独立性,可能是延迟而非阻止重新学习。此外,方法对超参数敏感,且计算成本随折叠数量呈二次增长,实用性受限。
Experiment
- 数据集与设置: 实验包括合成任务(2D分类和二元语言建模)和LLM基准测试(WMDP, MMLU, Years),使用Zephyr-7B-β模型,遗忘方法包括RMU和SimNPO,LU变体为L-RMU和L-SimNPO。评估对抗性重新学习时,测试了MCQ-based和corpus-based微调攻击,报告了不同折叠上的准确率。
- 结果: LU在合成任务和LLM基准上均显示出比标准遗忘方法更高的鲁棒性,尤其在早期折叠上,重新学习某个折叠对其他折叠性能的恢复效果较低(例如,L-RMU在WMDP上重新学习折叠B时,对折叠A的准确率提升仅为0.31,而标准RMU为0.41)。然而,corpus-based攻击比MCQ-based攻击更有效,LU的鲁棒性在此情况下有所下降(例如,L-RMU在corpus攻击下准确率提升10%)。
- 分析与批评: 实验设置较为全面,涵盖了多种任务和攻击类型,但结果显示LU的鲁棒性并非绝对,尤其对corpus-based攻击的防御效果有限,可能表明其抑制机制并非完全独立。此外,实验未充分探讨不同折叠顺序对结果的影响,且计算成本高昂(随折叠数k呈二次增长),未提供成本-收益权衡的深入分析。结果虽符合预期,但未达到完全阻止重新学习的理想效果。
Further Thoughts
LU的多阶段遗忘设计为后训练干预(如对齐和安全性)提供了一个有趣的视角,可能启发更模块化的模型行为控制策略。例如,其‘先训练无害但无能模型,再微调为有用同时保留无害性’的思路,与当前RLHF(强化学习人类反馈)和DPO(直接偏好优化)方法有潜在联系,但需要更深入研究如何在实际对齐任务中应用。此外,LU揭示的corpus-based攻击比MCQ-based攻击更强的现象,提示我们需要重新设计遗忘评估基准,纳入更接近真实世界的攻击场景,如利用公开语料库进行微调。另一个值得探索的方向是,是否可以通过神经网络的可解释性工具(如注意力机制分析)进一步验证LU的抑制机制是否真正独立,这可能为设计更鲁棒的遗忘方法提供理论支持。最后,LU的高计算成本和超参数敏感性问题,可能通过结合联邦学习或参数高效微调技术(如LoRA)得到缓解,这是一个值得未来研究的方向。