Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M

本文通过基于提示的方法初步研究了大型语言模型（LLMs）对MovieLens-1M推荐数据集的记忆程度，发现所有测试模型均表现出一定记忆，且记忆程度与推荐性能和模型规模正相关，同时揭示了流行度偏见问题。

Large Language Model, Recommender Systems, Dataset, Robustness, Fairness

Dario Di Palma, Felice Antonio Merra, Maurizio Sfilio, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia

Politecnico di Bari, Cognism

Generated by grok-3

Background Problem

大型语言模型（LLMs）因其强大的自然语言理解和生成能力，在推荐系统（RSs）中扮演着越来越重要的角色。然而，关于LLMs是否在训练过程中记忆了公开推荐数据集（如MovieLens-1M）的研究较少。数据集记忆可能导致研究结果的泛化性问题（即在测试集上的性能不可靠）、偏见放大（如过度推荐热门项目）以及与传统推荐系统的不公平比较。因此，本文旨在初步探究LLMs是否记忆了推荐数据集，并分析这种记忆对推荐性能的影响。

Method

本文提出了一种基于提示的评估方法来量化LLMs对推荐数据集的记忆程度，具体包括以下步骤：

记忆定义：定义了三种记忆类型，即项目记忆（Item Memorization）、用户记忆（User Memorization）和用户-项目交互记忆（Interaction Memorization），分别对应数据集中的项目属性、用户属性和交互历史。
数据提取技术：采用少样本提示（Few-Shot Prompting）技术，通过设计特定提示（如图1和图2所示）从LLMs中提取MovieLens-1M数据集的相关信息。提示旨在测试模型是否能准确返回项目标题、用户属性或交互记录。
记忆覆盖率度量：定义了覆盖率（Coverage）指标，用于量化模型记忆的数据比例，例如项目覆盖率计算为成功提取的项目数与总项目数的比值（公式如 $\text{Cov}(\mathcal{I}, P_{\mathcal{I}}) = \frac{|M(\mathcal{I}, P_{\mathcal{I}})|}{|\mathcal{I}|}$ ）。
推荐任务评估：通过零样本提示（Zero-Shot Prompting，如图3所示），测试LLMs在推荐任务中的表现，并与传统推荐算法（如UserKNN、BPRMF）进行比较。
偏见分析：进一步分析模型是否更倾向于记忆热门项目，以揭示流行度偏见（Popularity Bias）。

批判性思考：虽然方法设计有一定创新性，但仅依赖少样本提示可能无法完全揭示模型的记忆能力，缺乏对提示设计的优化（如自动提示工程）可能导致结果偏差。此外，方法未区分记忆是来自训练数据还是模型的推测能力，这可能影响结论的准确性。

Experiment

实验主要围绕MovieLens-1M数据集展开，测试了GPT家族（GPT-4o、GPT-4o mini、GPT-3.5 turbo）和Llama家族（多个版本和规模）模型的记忆程度和推荐性能：

记忆覆盖率：结果显示所有模型均表现出一定程度的记忆，其中GPT-4o的项目覆盖率最高（80.76%），用户覆盖率和交互覆盖率分别为16.52%和9.37%（如表1所示）。Llama模型中，Llama-3.1 405B的记忆覆盖率最高（项目覆盖率15.09%）。
推荐性能：在推荐任务中，LLMs表现出色，尤其是GPT-4o（HR@1为0.2796），远超传统算法如BPRMF（HR@1为0.0406）（如表2所示）。
模型规模影响：实验发现模型规模与记忆程度和推荐性能呈正相关，例如Llama-3.1 405B的记忆率和性能均高于Llama-3.1 8B。
流行度偏见：分析显示模型更倾向于记忆热门项目，例如GPT-4o对热门项目的覆盖率达89.06%，而对冷门项目的覆盖率仅为63.97%（如图4所示）。
实验设计合理性与局限性：实验设置较为基础，采用了标准的80%-20%训练-测试分割和leave-n-out范式，但仅针对一个数据集（MovieLens-1M）进行测试，缺乏多样性，可能导致结论的局限性。此外，提示设计未经过充分优化，可能影响结果的准确性。结果与预期一致，即记忆程度与推荐性能相关，但这种相关性是否因果尚需进一步验证。

批判性思考：实验结果表明LLMs确实记忆了MovieLens-1M数据集，但实验未能排除模型性能是否部分来自泛化能力而非纯粹记忆。此外，单一数据集的测试限制了结论的普适性，未来应扩展到更多数据集以验证结果的稳健性。

Further Thoughts

本文提出的LLMs对推荐数据集的记忆问题引发了更广泛的思考：如果LLMs在训练中确实记忆了大量公开数据集，那么在其他领域（如自然语言处理任务中的标准基准测试）中，模型性能是否也可能被高估？这种记忆现象是否可以通过设计去记忆化（De-memorization）技术或数据脱敏方法来缓解？此外，流行度偏见的发现与推荐系统中的‘过滤气泡’问题高度相关，未来研究可以探索如何通过对抗性训练或公平性约束来减少LLMs对热门项目的过度依赖。另一个有趣的方向是，是否可以通过跨数据集的记忆分析，揭示LLMs训练数据的构成模式，例如是否某些公开数据集被过度使用？这可能为构建更公平、更具泛化性的基础模型提供重要线索。