Skip to content
Go back 2505.10212 arXiv logo

Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M

Published:  at  11:16 AM
83.59 🤔

本文通过基于提示的方法初步研究了大型语言模型(LLMs)对MovieLens-1M推荐数据集的记忆程度,发现所有测试模型均表现出一定记忆,且记忆程度与推荐性能和模型规模正相关,同时揭示了流行度偏见问题。

Large Language Model, Recommender Systems, Dataset, Robustness, Fairness

Dario Di Palma, Felice Antonio Merra, Maurizio Sfilio, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia

Politecnico di Bari, Cognism

Generated by grok-3

Background Problem

大型语言模型(LLMs)因其强大的自然语言理解和生成能力,在推荐系统(RSs)中扮演着越来越重要的角色。然而,关于LLMs是否在训练过程中记忆了公开推荐数据集(如MovieLens-1M)的研究较少。数据集记忆可能导致研究结果的泛化性问题(即在测试集上的性能不可靠)、偏见放大(如过度推荐热门项目)以及与传统推荐系统的不公平比较。因此,本文旨在初步探究LLMs是否记忆了推荐数据集,并分析这种记忆对推荐性能的影响。

Method

本文提出了一种基于提示的评估方法来量化LLMs对推荐数据集的记忆程度,具体包括以下步骤:

批判性思考:虽然方法设计有一定创新性,但仅依赖少样本提示可能无法完全揭示模型的记忆能力,缺乏对提示设计的优化(如自动提示工程)可能导致结果偏差。此外,方法未区分记忆是来自训练数据还是模型的推测能力,这可能影响结论的准确性。

Experiment

实验主要围绕MovieLens-1M数据集展开,测试了GPT家族(GPT-4o、GPT-4o mini、GPT-3.5 turbo)和Llama家族(多个版本和规模)模型的记忆程度和推荐性能:

批判性思考:实验结果表明LLMs确实记忆了MovieLens-1M数据集,但实验未能排除模型性能是否部分来自泛化能力而非纯粹记忆。此外,单一数据集的测试限制了结论的普适性,未来应扩展到更多数据集以验证结果的稳健性。

Further Thoughts

本文提出的LLMs对推荐数据集的记忆问题引发了更广泛的思考:如果LLMs在训练中确实记忆了大量公开数据集,那么在其他领域(如自然语言处理任务中的标准基准测试)中,模型性能是否也可能被高估?这种记忆现象是否可以通过设计去记忆化(De-memorization)技术或数据脱敏方法来缓解?此外,流行度偏见的发现与推荐系统中的‘过滤气泡’问题高度相关,未来研究可以探索如何通过对抗性训练或公平性约束来减少LLMs对热门项目的过度依赖。另一个有趣的方向是,是否可以通过跨数据集的记忆分析,揭示LLMs训练数据的构成模式,例如是否某些公开数据集被过度使用?这可能为构建更公平、更具泛化性的基础模型提供重要线索。



Previous Post
What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction
Next Post
DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs