How much do language models memorize?

本文提出了一种基于信息论的记忆量化方法，通过区分无意记忆和泛化，测量GPT风格语言模型的容量约为每个参数3.6比特，并揭示了数据集规模与模型容量比对双重下降和成员推断性能的影响。

Large Language Model, Representation Learning, Pre-training, Robustness, Privacy-Preserving Machine Learning

John X. Morris, Chawin Sitawarin, Chuan Guo, Narine Kokhlikyan, G. Edward Suh, Alexander M. Rush, Kamalika Chaudhuri, Saeed Mahloujifar

FAIR at Meta, Google DeepMind, Cornell University, NVIDIA

Generated by grok-3

Background Problem

近年来，语言模型的训练数据量急剧增加，而参数规模相对稳定在数十亿级别，这引发了关于模型是否以及如何记忆训练数据的广泛讨论。现有研究通过数据提取（extraction）和成员推断（membership inference）方法探讨记忆问题，但缺乏对记忆的精确定义和量化方法，尤其是在区分模型对特定数据集的无意记忆和对数据生成过程的泛化能力方面。本文提出了一种新的记忆定义，试图解决这一问题，并通过测量现代语言模型的容量（capacity）来理解其记忆与泛化的平衡。

Method

本文提出了一种基于信息论和Kolmogorov复杂性的记忆量化方法，具体如下：

核心思想：将记忆分为无意记忆（unintended memorization，模型对特定数据集的信息存储）和泛化（generalization，模型对数据生成过程的理解），通过压缩率（bits）量化模型对特定数据点的记忆程度。
实现步骤：
1. 使用Shannon熵和Kolmogorov复杂性定义记忆，计算模型在给定数据点下的似然（likelihood）来近似Kolmogorov复杂性，从而估算无意记忆和泛化的信息量。
2. 通过训练模型和参考模型（reference model，通常是更大规模模型）计算条件熵，区分无意记忆和泛化。
3. 在无泛化可能的合成数据（如均匀随机比特串）上训练模型，直接测量模型容量；在真实文本数据上训练模型，观察记忆与泛化的转换。
关键点与批判：虽然理论框架新颖，但Kolmogorov复杂性不可计算的本质使得通过似然近似的方法可能存在系统性偏差。此外，参考模型的选择（如更大规模模型）可能影响结果的客观性，缺乏对不同架构模型的鲁棒性分析。

Experiment

实验分为两部分：

合成数据实验：使用均匀随机比特串数据集，训练500K至1.5B参数的GPT风格Transformer模型，测量无意记忆量，发现模型容量约为每个参数3.6比特，且记忆量在达到容量上限后趋于平稳。此设置排除了泛化影响，提供了模型容量的下限估计，但合成数据的简单性可能无法反映真实语言模型的复杂行为。
真实文本实验：使用FineWeb数据集，同样训练不同规模模型，观察到无意记忆随模型参数增加而增加，随数据集规模增加而减少；当数据集规模超过模型容量时，模型开始泛化，出现双重下降（double descent）现象。成员推断和提取率实验表明，在大数据集上，成功提取更多归因于泛化而非记忆。
结果评价与批判：实验设置较为全面，涵盖了合成和真实数据，但数据集规模和模型规模相对现代大型语言模型（如数百亿参数）较小，结论的外推性存疑。此外，实验未充分探讨不同训练策略（如优化器、学习率）对记忆容量的影响，可能导致结果的片面性。成员推断扩展律预测在大数据集上接近随机猜测，但未验证在实际安全场景中的有效性。

Further Thoughts

本文提出的记忆量化框架为理解语言模型的内部机制提供了新视角，但其实际应用价值仍需进一步探索。例如，模型容量以比特计量的结论是否能指导模型设计或训练数据选择？此外，成员推断扩展律预测大数据集上的随机猜测性能，这与当前隐私保护领域的研究（如差分隐私）有潜在联系，未来可以探讨如何结合差分隐私机制进一步降低无意记忆带来的安全风险。同时，作者未讨论模型架构对记忆容量的影响，是否Transformer之外的架构（如RNN或State Space Model）会有不同表现？这一问题值得后续研究深入，尤其是在资源受限场景下，理解不同架构的记忆-泛化权衡可能对边缘设备上的模型部署有重要意义。