Skip to content
Go back 2505.0002 arXiv logo

Beyond Public Access in LLM Pre-Training Data

Published:  at  04:32 PM
53.67 🤔

本文通過DE-COP成員推斷攻擊方法,使用O’Reilly書籍數據集證明OpenAI的GPT-4o可能訓練過非公共版權內容,突顯了LLM預訓練數據中非公共數據使用增加的趨勢及加強透明度和許可框架的必要性。

Large Language Model, Pre-training, AI Ethics, Privacy-Preserving Machine Learning, Trustworthy AI, Responsible AI

Sruly Rosenblat, Tim O’Reilly, Ilan Strauss

Social Science Research Council, O’Reilly Media, AI Disclosures Project

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)在預訓練階段需要大量公共和非公共數據,但數據來源和法律狀態通常未被公司披露。多家AI公司可能在未經許可的情況下使用非公共、經常是非法獲得的內容進行訓練,本文以合法獲得的34本O’Reilly Media版權書籍為數據集,應用DE-COP成員推斷攻擊方法,調查OpenAI的模型是否在未經同意的情況下使用了版權內容。研究發現,GPT-4o對付費牆後的O’Reilly書籍內容有較強識別能力(AUROC=82%AUROC = 82\%),而GPT-3.5 Turbo則較弱,這突顯了增加公司透明度並制定正式許可框架的迫切需求,以保護內容創作者的權益並維持互聯網的商業模式。

Method

Experiment

Further Thoughts

這項研究揭示了AI模型訓練中版權問題的嚴重性,可能激發開發更先進的數據追蹤技術,如水印或影響函數,以精確識別訓練數據來源;同時,結合歐盟AI法案等政策討論,提示需要建立公平的AI內容市場,平衡創新與創作者權益,避免內容生態崩潰;未來,可以探索將類似方法應用到其他領域,如圖像或音樂的版權檢測,促進跨領域的AI倫理研究。



Previous Post
W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models
Next Post
On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration