OpenAI ha risposto a due cause collettive quasi identiche intentate contro di lei da alcuni autori, sostenendo che la maggior parte delle accuse dovrebbe essere respinta.
Gli autori sostengono che i loro diritti d'autore sono stati violati quando l'azienda ha utilizzato il loro lavoro come dati di addestramento per ChatGPT. Le accuse contenute nella causa sono:
- violazione diretta del copyright
- violazione vicaria del diritto d'autore
- rimozione delle informazioni sulla gestione del copyright (DMCA)
- concorrenza sleale
- arricchimento senza causa
- negligenza
OpenAI afferma di essere lieta che la prima accusa sia discussa in tribunale, ma che le altre cinque sono errate dal punto di vista legale e dovrebbero essere respinte.
I querelanti sostengono che, poiché i loro libri sono stati utilizzati per addestrare ChatGPT, tutto ciò che ChatGPT produce è un derivato del loro lavoro protetto da copyright.
OpenAI afferma di non voler né confermare né smentire che i libri in questione facessero parte del set di dati di addestramento. Ma afferma che anche se i libri fossero stati inclusi nel dataset, si trattava di una minima parte di un'enorme quantità di dati.
OpenAI ha sostenuto che ciò rientra nel principio del fair use, che non viola il diritto d'autore.
Gli autori potrebbero avere difficoltà a convincere la corte della loro tesi. Non stanno sostenendo che ChatGPT stia scrivendo libri simili ai loro e in concorrenza con loro. Stanno dicendo che ogni parola pubblicata da ChatGPT è una violazione del copyright.
Nella sua mozione di archiviazione OpenAI ha dichiarato: "Secondo le denunce, ogni singolo output di ChatGPT - da una semplice risposta a una domanda (ad esempio, "Sì"), al nome del Presidente degli Stati Uniti, a un paragrafo che descrive la trama, i temi e il significato dell'Iliade di Omero - è necessariamente un "lavoro derivato" dai libri dei querelanti".
Sarà difficile da argomentare. Anche gli accurati riassunti che ChatGPT produce dei libri in questione sono descritti nella mozione come simili a "relazioni o recensioni di libri" piuttosto che a un tentativo di trarre profitto da un'opera protetta da copyright.
I dettagli degli altri argomenti possono essere letti in Mozione di rigetto di OpenAI.
Perché OpenAI non chiede l'archiviazione dell'intero caso?
Nella mozione OpenAI afferma di non chiedere l'archiviazione dell'accusa di violazione diretta del copyright "che OpenAI cercherà di risolvere come questione di diritto in una fase successiva del caso".
OpenAI e Meta non hanno rivelato esattamente quali dati hanno utilizzato per addestrare i loro modelli, ma quasi certamente includono molto materiale protetto da copyright, compresi i libri degli autori che hanno intentato le cause.
Se sono stati inclusi dati protetti da copyright, OpenAI ne era certamente consapevole. L'azienda sosterrà che l'intento di accedere al materiale non era quello di produrre opere derivate e di trarne profitto in concorrenza con gli originali.
Se il tribunale sarà d'accordo, la decisione costituirà un precedente su cui si baserà una serie di altre cause legali relative all'IA in corso.
Una decisione a suo favore significherà che non potrà essere citata in giudizio per aver utilizzato in passato dati protetti da copyright e che potrà continuare a farlo per addestrare i suoi nuovi modelli. E se il tribunale deciderà che l'addestramento dell'IA rientra nel principio dell'uso equo, si aprirà una stagione aperta anche per le altre aziende di IA.
È una mossa rischiosa, ma a un certo punto la questione dovrà essere risolta. Se la decisione sarà contraria a OpenAI, dovrà eliminare ChatGPT e ricominciare l'addestramento da zero. Questa volta con un insieme di dati molto più ridotto.