Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs

本文提出了低秩知识遗忘（LoKU）框架，包含反向铰链损失（IHL）和 Fisher 加权低秩适配器初始化（FILA），以实现鲁棒且参数高效的大语言模型知识遗忘，有效移除敏感信息同时保持模型原有能力。

Large Language Model, Parameter-Efficient Fine-Tuning, Privacy-Preserving Machine Learning, Robustness, Efficiency, Reasoning

Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee

New York University, University of Wisconsin-Madison, LG AI Research, University of Illinois Chicago

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型（LLMs）在海量文本数据上预训练，展现出强大的推理和记忆能力。然而，这种记忆能力也带来了隐私和版权风险，敏感信息或受版权保护的内容可能被模型记住并泄露。传统的精确遗忘方法（从头开始重新训练）对于大型模型和数据集来说计算成本极高，难以应对频繁的遗忘请求。因此，研究界转向近似遗忘方法，目标是在不从头训练的情况下移除特定数据知识。现有的近似遗忘方法，如梯度上升（GA），存在优化不稳定和灾难性遗忘（忘记保留的知识）的问题。将 GA 与参数高效微调（如 LoRA）结合，虽然降低了计算成本，但在遗忘效果和性能保持之间权衡较差。因此，需要一种更鲁易、参数更高效的 LLM 知识遗忘方法。

Method

本文提出的低秩知识遗忘（LoKU）框架包含两个核心技术：

反向铰链损失 (Inverted Hinge Loss, IHL): 针对传统梯度上升 (GA) 遗忘方法的缺点（梯度扩散、无界优化、生成性能下降），IHL 旨在更精确地降低遗忘集中目标 token 的预测概率。GA 通过最大化负对数似然，会无差别地提升所有非目标 token 的概率。IHL 的核心思想是，对于遗忘集中的序列 $(x_1, \dots, x_T)$ ，在预测下一个 token $x_t$ 时，它不仅降低真实 token $x_t$ 的概率 $p_\theta(x_t|x_{<t})$ ，还特别关注并提升下一个最有可能的 token $v^\star = \arg\max_{v \ne x_t} p_\theta(v|x_{<t})$ 的概率，而对其他不相关的 token 影响较小。其损失函数定义为 $\mathcal{L}_{\text{IHL}}(\mathbf{x}) = 1 + p_{\theta}(x_t|x_{<t}) - \max_{v \ne x_t} p_{\theta}(v|x_{<t})$ 。这个损失函数是有界的，并且其梯度主要集中在真实 token $x_t$ 和次优 token $v^\star$ 上，从而实现更稳定和有针对性的遗忘，减少对模型生成能力的损害。
Fisher 加权低秩适配器初始化 (Fisher-Initialization of Low-rank Adapters, FILA): 为了解决在低秩适应（LoRA）范式下，模型可塑性不足导致遗忘效率低的问题，FILA 提出了一种数据自适应的 LoRA 初始化方法。它利用 Fisher 信息来衡量模型参数对于生成遗忘集 ( $D^f$ ) 相对于保留集 ( $D^r$ ) 的相对重要性。具体来说，计算每个参数的经验 Fisher 信息矩阵 $\hat{\mathbf{F}}_\theta(D)$ ，并使用相对 Fisher 信息 $\hat{\mathbf{F}}_W^{\text{rel}} = \hat{\mathbf{F}}_W(D^f) / \hat{\mathbf{F}}_W(D^r)$ 作为参数重要性度量。然后，FILA 通过解决一个加权低秩近似问题，利用这些相对重要的参数来初始化 LoRA 适配器权重 $A^*$ 和 $B^*$ 。这种初始化使得 LoRA 适配器在训练开始时就偏向于调整那些对生成遗忘集至关重要的参数，从而加速遗忘过程，同时保持对保留集知识的稳定性。

最终的 LoKU 训练目标是结合 IHL 和保留集上的语言模型损失（GD 的一部分），并在 FILA 初始化的 LoRA 适配器上进行优化： $\underset{\theta_{\text{PLA}}}{\text{minimize}} \sum_{\boldsymbol{\mathfrak{w}}_{r} \in \mathcal{D}_{f}, \boldsymbol{\mathfrak{w}}_{f} \in \mathcal{D}_{r}} \mathcal{L}_{\text{IHL}}(\boldsymbol{\mathfrak{x}}_{f}) + \mathcal{L}_{\text{LM}}(\boldsymbol{\mathfrak{x}}_{r})$ ，其中 $\theta_{\text{PLA}}$ 是 LoRA 适配器参数。

Experiment

本文在两个主要数据集上进行了实验：

Training Data Extraction Challenge (TDEC): 使用 GPT-Neo 125M, 1.3B, 和 2.7B 模型，从 Pile 数据集中随机抽取 32 个序列作为遗忘集（D^f），使用 WikiText 作为保留集（D^r）。评估指标包括 n-gram 提取可能性 (ELn) 和记忆准确率 (MA) 来衡量遗忘效果，以及在 9 个分类任务（推理能力）、4 个对话生成任务（生成能力）和 Pile 数据集上的困惑度 (PPL) 来衡量模型在遗忘后的性能保持情况。实验比较了全参数微调的 GA、GD、IHL 方法以及使用 LoRA (rank 16) 的 GD、IHL、GD+FILA、IHL+FILA 方法。结果表明，LoKU (IHL+FILA) 在实现有效遗忘的同时，相比其他 LoRA 方法更能保持模型在推理和生成任务上的性能，并且比全参数方法更高效。
Task of Fictitious Unlearning (TOFU): 使用 Phi-1.5B 和 Llama2-7B 模型，首先在 TOFU 数据集上进行微调，然后尝试遗忘 1%、5% 或 10% 的虚构作者信息。评估指标包括 Kolmogorov-Smirnov 检验的 p 值（Forget Quality）衡量遗忘程度（与仅在保留集上微调的模型进行比较），以及在保留集、真实作者和世界事实数据集上的综合性能（Model Utility）衡量模型其他知识的保留情况。实验比较了使用 LoRA (rank 4, 8, 16, 32) 的 GA, GD, IHL, GD+FILA, IHL+FILA 方法，以及与 KL, DPO, NPO 等其他基线方法进行对比。结果显示，LoKU (IHL+FILA) 在不同遗忘比例和 LoRA 秩下，都能在保持较高 Model Utility 的同时实现更好的 Forget Quality，优于大多数基线方法。实验还发现，LoRA 应用于 FFN 层比仅应用于注意力层更能有效实现遗忘。

Further Thoughts

本文提出的 IHL 和 FILA 方法为 LLM 知识遗忘提供了新的视角。IHL 通过有针对性地调整预测概率，避免了 GA 的梯度扩散和无界优化问题，这对于大型词汇表和复杂任务尤其重要。FILA 利用 Fisher 信息来指导 LoRA 初始化，将参数高效微调与知识遗忘的关键参数识别相结合，这种数据自适应的初始化思路非常值得借鉴，未来可以探索是否能将其应用于其他 PEFT 任务或模型编辑场景。此外，论文在 TOFU 实验中观察到的“Streisand effect”（过度遗忘导致遗忘质量下降）现象，提示我们在实际应用中需要更鲁棒的遗忘停止准则，以及不依赖于参考模型的遗忘效果评估方法。这与现实世界中难以获得“理想”参考模型的情况相符，是未来研究的重要方向。Fisher 信息在本文中用于识别与遗忘集相关的参数，这与一些模型可解释性或神经元重要性研究方向也有关联，或许可以进一步探索 Fisher 信息在理解 LLM 知识存储和遗忘机制中的作用。