Le cause sull'intelligenza artificiale si susseguono a ritmo serrato: la comica e autrice statunitense Sarah Silverman e gli autori Christopher Golden e Richard Kadrey hanno intentato cause contro OpenAI e Meta.
Il trio denuncia una violazione del diritto d'autore, affermando che il loro lavoro è stato utilizzato illegalmente per l'addestramento di ChatGPT e LLaMA, il modello linguistico open source di Meta (LLM).
ChatGPT si basa sull'analisi di una quantità colossale di dati provenienti da Internet, che gli insegnano a gestire il linguaggio naturale. Molti interrogativi circondano l'origine di questi dati di addestramento e i metodi utilizzati per recuperarli, e i sospetti aumentano ora che i creatori stanno scoprendo che il loro lavoro potrebbe essere contenuto in quei dati di addestramento.
In quest'ultima causa, OpenAI e Meta sono accusati di aver utilizzato i libri protetti da copyright dei querelanti come dati di addestramento senza il loro consenso.
Le cause suggeriscono che i materiali provengono da siti web di "biblioteche ombra". Le biblioteche ombra contengono grandi quantità di informazioni copiate illegalmente e comprendono siti come Bibliotik, Library Genesis e Z-Library. Le biblioteche ombra sono simili ai torrent: sono difficili da prevenire e controllare.
OpenAI è accusato di aver riassunto accuratamente 3 libri quando richiesto: "The Bedwetter" di Silverman, "Ararat" di Golden e "Sandman Slim" di Kadrey. Anche se l'IA potrebbe imparare a conoscere questi libri dai riassunti di Wikipedia e simili, questo non spiegherebbe il livello di dettaglio contenuto nei riassunti.
La causa contro Meta cita diverse opere di Kadrey e Golden, oltre a "The Bedwetter", riferendosi a un documento di Meta che indica l'uso di materiale proveniente da biblioteche ombra, che la causa definisce "palesemente illegale".
Il documento di Meta "Nel nostro set di dati per l'addestramento includiamo due corpora di libri: il Progetto Gutenberg, che contiene libri di pubblico dominio, e la sezione Books3 di ThePile (Gao et al., 2020), un dataset disponibile pubblicamente per l'addestramento di modelli linguistici di grandi dimensioni".
Joseph Saveri e Matthew Butterick, avvocati che rappresentano il trio, hanno riferito di crescenti preoccupazioni riguardo all'inquietante capacità di ChatGPT di imitare testi protetti da copyright.
Ricerca ha dimostrato che il GPT-4 ha quasi sicuramente imparato da opere protette da copyright.
Tuttavia, questo potrebbe essere dovuto al fatto che sono popolari e ampiamente diffusi o che compaiono nelle letture dei corsi scolastici e universitari.
In ogni caso, ciò non esime le aziende di IA dall'utilizzare tali testi nei loro dati di addestramento.
Aumentano le cause legali legate all'intelligenza artificiale
L'intelligenza artificiale è diventata il centro di una tempesta di cause legali, molte delle quali sono considerate le prime del loro genere.
Gli stessi avvocati rappresentano anche gli autori statunitensi Mona Awad e Paul Tremblay in un'azione di risarcimento danni. azione legale collettiva separata ma quasi identica contro OpenAI.
E ancora, lo stesso team di avvocati, Saveri e Butterick, sono in rappresentanza di 3 artisti - Sarah Andersen, Kelly McKernan e Karla Ortiz - in una causa contro i generatori di immagini Stability AI e Midjourney.
Lo stesso studio legale ha rappresentato un causa contro Microsft e GitHubche sostiene che il loro strumento di intelligenza artificiale Copilot AI ha tratto profitto dal lavoro di programmatori open-source. Si tratta di un caso molto simile: i querelanti sostengono che lo strumento di IA viene addestrato su informazioni che contengono dati "open-source" estratti illegalmente.
In questo caso, sostengono i convenuti, "la Sezione 1202(b) del Digital Millennium Copyright Act americano "riguarda "copie ... di un'opera" identiche, non frammenti e adattamenti vaganti". Le aziende di IA possono sostenere un'argomentazione simile contro gli autori, suggerendo che i riassunti delle loro opere sono insufficienti a sostenere la loro tesi secondo cui i libri appaiono nei dati di addestramento nella loro interezza.
In ogni caso, le accuse si stanno accumulando, indicando una tendenza all'aumento delle pressioni legali sulle aziende di IA.
Regolamenti sull'IA come il Legge UE sull'AI sono pronti a richiedere alle aziende di divulgare le informazioni sui dati protetti da copyright presenti nei loro dati di formazione. È ancora da vedere se questo avrà l'effetto desiderato.