Layered Unlearning for Adversarial Relearning

本文提出分层遗忘（Layered Unlearning, LU）方法，通过多阶段逐步遗忘数据子集并诱导不同抑制机制，增强大型语言模型对对抗性重新学习的鲁棒性，尽管对语料库攻击仍显脆弱。

Large Language Model, Fine-tuning, Robustness, Safety, AI Ethics

Timothy Qian, Vinith Suriyakumar, Ashia Wilson, Dylan Hadfield-Menell

MIT

Generated by grok-3

Background Problem

大型语言模型（LLMs）在后训练（如微调、偏好学习或遗忘）后，其行为修改往往是脆弱的，容易被对抗性提示工程或重新学习绕过。研究表明，这种脆弱性可能源于后训练引入的浅层、上下文依赖的‘电路’（circuits），这些电路抑制特定响应模式，但容易被单一机制逆转。本文聚焦于机器遗忘（machine unlearning），旨在移除预训练模型中的特定知识或能力，解决的关键问题是：如何设计更鲁棒的后训练方法，以防止通过重新学习子集数据恢复整个遗忘数据集的性能。

Method

核心思想： 提出分层遗忘（Layered Unlearning, LU），通过将数据划分为多个折叠（folds），并在多个阶段逐步遗忘累积的数据子集，同时保留剩余数据，诱导不同的上下文依赖抑制机制（inhibitors），从而增强对对抗性重新学习的鲁棒性。
具体实现：
- 将遗忘数据集划分为 k 个不相交的折叠 {F1, F2, …, Fk}。
- 在第 i 个阶段，遗忘前 i 个折叠的并集（F1 ∪ … ∪ Fi），同时保留剩余折叠（Fi+1 ∪ … ∪ Fk）和一个保留集 R 的性能。
- 使用现有的遗忘算法（如RMU或SimNPO）作为基本单元，在每个阶段调整模型参数，形成不同的抑制机制。
关键假设： 不同阶段形成的抑制机制是功能上独立的，重新学习某个折叠只会移除与其相关的抑制机制，而不会影响其他折叠的遗忘效果。
批评： 虽然理论上LU通过多层防御避免单一失败点，但论文未提供足够的证据证明抑制机制的独立性，可能是延迟而非阻止重新学习。此外，方法对超参数敏感，且计算成本随折叠数量呈二次增长，实用性受限。

Experiment

数据集与设置： 实验包括合成任务（2D分类和二元语言建模）和LLM基准测试（WMDP, MMLU, Years），使用Zephyr-7B-β模型，遗忘方法包括RMU和SimNPO，LU变体为L-RMU和L-SimNPO。评估对抗性重新学习时，测试了MCQ-based和corpus-based微调攻击，报告了不同折叠上的准确率。
结果： LU在合成任务和LLM基准上均显示出比标准遗忘方法更高的鲁棒性，尤其在早期折叠上，重新学习某个折叠对其他折叠性能的恢复效果较低（例如，L-RMU在WMDP上重新学习折叠B时，对折叠A的准确率提升仅为0.31，而标准RMU为0.41）。然而，corpus-based攻击比MCQ-based攻击更有效，LU的鲁棒性在此情况下有所下降（例如，L-RMU在corpus攻击下准确率提升10%）。
分析与批评： 实验设置较为全面，涵盖了多种任务和攻击类型，但结果显示LU的鲁棒性并非绝对，尤其对corpus-based攻击的防御效果有限，可能表明其抑制机制并非完全独立。此外，实验未充分探讨不同折叠顺序对结果的影响，且计算成本高昂（随折叠数k呈二次增长），未提供成本-收益权衡的深入分析。结果虽符合预期，但未达到完全阻止重新学习的理想效果。

Further Thoughts

LU的多阶段遗忘设计为后训练干预（如对齐和安全性）提供了一个有趣的视角，可能启发更模块化的模型行为控制策略。例如，其‘先训练无害但无能模型，再微调为有用同时保留无害性’的思路，与当前RLHF（强化学习人类反馈）和DPO（直接偏好优化）方法有潜在联系，但需要更深入研究如何在实际对齐任务中应用。此外，LU揭示的corpus-based攻击比MCQ-based攻击更强的现象，提示我们需要重新设计遗忘评估基准，纳入更接近真实世界的攻击场景，如利用公开语料库进行微调。另一个值得探索的方向是，是否可以通过神经网络的可解释性工具（如注意力机制分析）进一步验证LU的抑制机制是否真正独立，这可能为设计更鲁棒的遗忘方法提供理论支持。最后，LU的高计算成本和超参数敏感性问题，可能通过结合联邦学习或参数高效微调技术（如LoRA）得到缓解，这是一个值得未来研究的方向。