Skip to content
Go back 2505.24832 arXiv logo

How much do language models memorize?

Published:  at  11:44 AM
87.61 🤔

本文提出了一种基于信息论的记忆量化方法,通过区分无意记忆和泛化,测量GPT风格语言模型的容量约为每个参数3.6比特,并揭示了数据集规模与模型容量比对双重下降和成员推断性能的影响。

Large Language Model, Representation Learning, Pre-training, Robustness, Privacy-Preserving Machine Learning

John X. Morris, Chawin Sitawarin, Chuan Guo, Narine Kokhlikyan, G. Edward Suh, Alexander M. Rush, Kamalika Chaudhuri, Saeed Mahloujifar

FAIR at Meta, Google DeepMind, Cornell University, NVIDIA

Generated by grok-3

Background Problem

近年来,语言模型的训练数据量急剧增加,而参数规模相对稳定在数十亿级别,这引发了关于模型是否以及如何记忆训练数据的广泛讨论。现有研究通过数据提取(extraction)和成员推断(membership inference)方法探讨记忆问题,但缺乏对记忆的精确定义和量化方法,尤其是在区分模型对特定数据集的无意记忆和对数据生成过程的泛化能力方面。本文提出了一种新的记忆定义,试图解决这一问题,并通过测量现代语言模型的容量(capacity)来理解其记忆与泛化的平衡。

Method

本文提出了一种基于信息论和Kolmogorov复杂性的记忆量化方法,具体如下:

Experiment

实验分为两部分:

Further Thoughts

本文提出的记忆量化框架为理解语言模型的内部机制提供了新视角,但其实际应用价值仍需进一步探索。例如,模型容量以比特计量的结论是否能指导模型设计或训练数据选择?此外,成员推断扩展律预测大数据集上的随机猜测性能,这与当前隐私保护领域的研究(如差分隐私)有潜在联系,未来可以探讨如何结合差分隐私机制进一步降低无意记忆带来的安全风险。同时,作者未讨论模型架构对记忆容量的影响,是否Transformer之外的架构(如RNN或State Space Model)会有不同表现?这一问题值得后续研究深入,尤其是在资源受限场景下,理解不同架构的记忆-泛化权衡可能对边缘设备上的模型部署有重要意义。



Previous Post
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning
Next Post
One-shot Entropy Minimization