Skip to content
Go back 2408.06621 arXiv logo

Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs

Published:  at  01:27 AM
70.15 🤔

本文提出了低秩知识遗忘(LoKU)框架,包含反向铰链损失(IHL)和 Fisher 加权低秩适配器初始化(FILA),以实现鲁棒且参数高效的大语言模型知识遗忘,有效移除敏感信息同时保持模型原有能力。

Large Language Model, Parameter-Efficient Fine-Tuning, Privacy-Preserving Machine Learning, Robustness, Efficiency, Reasoning

Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee

New York University, University of Wisconsin-Madison, LG AI Research, University of Illinois Chicago

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)在海量文本数据上预训练,展现出强大的推理和记忆能力。然而,这种记忆能力也带来了隐私和版权风险,敏感信息或受版权保护的内容可能被模型记住并泄露。传统的精确遗忘方法(从头开始重新训练)对于大型模型和数据集来说计算成本极高,难以应对频繁的遗忘请求。因此,研究界转向近似遗忘方法,目标是在不从头训练的情况下移除特定数据知识。现有的近似遗忘方法,如梯度上升(GA),存在优化不稳定和灾难性遗忘(忘记保留的知识)的问题。将 GA 与参数高效微调(如 LoRA)结合,虽然降低了计算成本,但在遗忘效果和性能保持之间权衡较差。因此,需要一种更鲁易、参数更高效的 LLM 知识遗忘方法。

Method

本文提出的低秩知识遗忘(LoKU)框架包含两个核心技术:

  1. 反向铰链损失 (Inverted Hinge Loss, IHL): 针对传统梯度上升 (GA) 遗忘方法的缺点(梯度扩散、无界优化、生成性能下降),IHL 旨在更精确地降低遗忘集中目标 token 的预测概率。GA 通过最大化负对数似然,会无差别地提升所有非目标 token 的概率。IHL 的核心思想是,对于遗忘集中的序列 (x1,,xT)(x_1, \dots, x_T),在预测下一个 token xtx_t 时,它不仅降低真实 token xtx_t 的概率 pθ(xtx<t)p_\theta(x_t|x_{<t}),还特别关注并提升下一个最有可能的 token v=argmaxvxtpθ(vx<t)v^\star = \arg\max_{v \ne x_t} p_\theta(v|x_{<t}) 的概率,而对其他不相关的 token 影响较小。其损失函数定义为 LIHL(x)=1+pθ(xtx<t)maxvxtpθ(vx<t)\mathcal{L}_{\text{IHL}}(\mathbf{x}) = 1 + p_{\theta}(x_t|x_{<t}) - \max_{v \ne x_t} p_{\theta}(v|x_{<t})。这个损失函数是有界的,并且其梯度主要集中在真实 token xtx_t 和次优 token vv^\star 上,从而实现更稳定和有针对性的遗忘,减少对模型生成能力的损害。
  2. Fisher 加权低秩适配器初始化 (Fisher-Initialization of Low-rank Adapters, FILA): 为了解决在低秩适应(LoRA)范式下,模型可塑性不足导致遗忘效率低的问题,FILA 提出了一种数据自适应的 LoRA 初始化方法。它利用 Fisher 信息来衡量模型参数对于生成遗忘集 (DfD^f) 相对于保留集 (DrD^r) 的相对重要性。具体来说,计算每个参数的经验 Fisher 信息矩阵 F^θ(D)\hat{\mathbf{F}}_\theta(D),并使用相对 Fisher 信息 F^Wrel=F^W(Df)/F^W(Dr)\hat{\mathbf{F}}_W^{\text{rel}} = \hat{\mathbf{F}}_W(D^f) / \hat{\mathbf{F}}_W(D^r) 作为参数重要性度量。然后,FILA 通过解决一个加权低秩近似问题,利用这些相对重要的参数来初始化 LoRA 适配器权重 AA^*BB^*。这种初始化使得 LoRA 适配器在训练开始时就偏向于调整那些对生成遗忘集至关重要的参数,从而加速遗忘过程,同时保持对保留集知识的稳定性。

最终的 LoKU 训练目标是结合 IHL 和保留集上的语言模型损失(GD 的一部分),并在 FILA 初始化的 LoRA 适配器上进行优化:minimizeθPLAwrDf,wfDrLIHL(xf)+LLM(xr)\underset{\theta_{\text{PLA}}}{\text{minimize}} \sum_{\boldsymbol{\mathfrak{w}}_{r} \in \mathcal{D}_{f}, \boldsymbol{\mathfrak{w}}_{f} \in \mathcal{D}_{r}} \mathcal{L}_{\text{IHL}}(\boldsymbol{\mathfrak{x}}_{f}) + \mathcal{L}_{\text{LM}}(\boldsymbol{\mathfrak{x}}_{r}),其中 θPLA\theta_{\text{PLA}} 是 LoRA 适配器参数。

Experiment

本文在两个主要数据集上进行了实验:

Further Thoughts

本文提出的 IHL 和 FILA 方法为 LLM 知识遗忘提供了新的视角。IHL 通过有针对性地调整预测概率,避免了 GA 的梯度扩散和无界优化问题,这对于大型词汇表和复杂任务尤其重要。FILA 利用 Fisher 信息来指导 LoRA 初始化,将参数高效微调与知识遗忘的关键参数识别相结合,这种数据自适应的初始化思路非常值得借鉴,未来可以探索是否能将其应用于其他 PEFT 任务或模型编辑场景。此外,论文在 TOFU 实验中观察到的“Streisand effect”(过度遗忘导致遗忘质量下降)现象,提示我们在实际应用中需要更鲁棒的遗忘停止准则,以及不依赖于参考模型的遗忘效果评估方法。这与现实世界中难以获得“理想”参考模型的情况相符,是未来研究的重要方向。Fisher 信息在本文中用于识别与遗忘集相关的参数,这与一些模型可解释性或神经元重要性研究方向也有关联,或许可以进一步探索 Fisher 信息在理解 LLM 知识存储和遗忘机制中的作用。



Previous Post
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs
Next Post
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making