16.000 nomi di artisti trapelati in modo controverso come "stili" di Midjourney

5 gennaio 2024

IA di metà viaggio

Oltre 16.000 nomi di artisti sono stati collegati alla formazione non consensuale dei modelli di generazione di immagini di Midjourney.

Il database degli artisti Midjourney è allegato a una causa modificata presentata contro Stability AI, DeviantArt e Midjourney., archiviata sotto la voce Exhibit J, e in un foglio di calcolo pubblico di Google trapelato di recente, una parte del quale può essere visualizzata nella sezione Archivio Internet qui

L'artista Jon Lam ha condiviso su X alcune schermate di una chat di Midjourney Discord in cui gli sviluppatori discutono dell'utilizzo di nomi di artisti e stili tratti da Wikipedia e da altre fonti.

Si ritiene che il foglio di calcolo sia stato originariamente ottenuto dal team di sviluppo di Midjourney e si collega alle chat di Discord trapelate dagli sviluppatori di Midjourney, che alludono al fatto che il lavoro dell'artista è stato mappato su "stili".

Codificando il lavoro degli artisti come "stili", Midjourney può ricreare in modo efficiente il lavoro nel loro stile. 

Lam scrive: "Gli sviluppatori di Midjourney sono stati sorpresi a discutere di riciclaggio e a creare un database di artisti (che sono stati disumanizzati in stili".

Lam ha anche condiviso video di elenchi di artisti, compresi quelli utilizzati per gli stili di Midjourney e un altro elenco di "artisti proposti". Numerosi utenti di X hanno dichiarato che i loro nomi erano presenti in questi elenchi. 

Uno screenshot sembra mostrare una dichiarazione dell'amministratore delegato di Midjourney David Holz che celebra l'aggiunta di 16.000 artisti al programma di formazione. 

Un'altra mostra uno sviluppatore di Midjourney mentre discute del fatto che bisogna "riciclarlo" attraverso un "Codex", anche se, senza un contesto, è difficile dire se si riferisca al lavoro degli artisti.

Altri (non dipendenti di Midjourney) in quella stessa conversazione fanno riferimento al fatto che l'elaborazione di opere d'arte attraverso un modello di intelligenza artificiale le disincarna essenzialmente dal diritto d'autore.

Uno dice: "Tutto quello che devi fare è usare questi set di dati scraped e dimenticare comodamente quello che hai usato per addestrare il modello. Boom di problemi legali risolti per sempre".

Come si sviluppano i casi legali

Nelle cause legali intentate contro Midjourney, Stability AI e anche OpenAI, Meta e Google (ma per lavori basati sul testo, anziché sulle immagini), artisti, scrittori e altri hanno trovato difficile dimostrare che il loro lavoro è davvero "dentro" il modello alla lettera.

Questa sarebbe la pistola fumante di cui hanno bisogno per dimostrare le violazioni del copyright.  

Il copyright, in generale, rimane poco definito nell'era dell'IA. I modelli di IA sono addestrati su dati che devono provenire da qualche parte, e quale fonte migliore di Internet per trovarli?

Gli sviluppatori "raschiano" quelli che vengono definiti dati "aperti", "open-source" o "pubblici" da Internet, ma anche in questo caso i concetti sono poco definiti. Si potrebbe dire che quando gli sviluppatori di IA hanno fiutato l'imminente corsa all'oro, si sono impossessati di quanti più dati "aperti" possibili da Internet e li hanno usati per addestrare i loro modelli.

I processi legali sono lenti; l'IA, in confronto, va alla velocità della luce. È stato molto facile per gli sviluppatori aggirare la legge sul copyright e addestrare modelli molto prima che i detentori del copyright e la legge che regola la proprietà intellettuale potessero reagire.

Il processo di reazione è in corso, ma sia il processo di addestramento dell'IA che il processo tecnico di generazione dei risultati dell'IA (ad esempio, testo o immagini) a partire dagli input dell'utente mettono in discussione la natura del diritto di proprietà intellettuale.

In particolare, è a) difficile dimostrare che i modelli di IA sono sicuramente addestrati su materiale protetto da copyright e b) difficile dimostrare che i loro risultati replicano sufficientemente il materiale protetto da copyright.

C'è anche la questione della responsabilità. Le aziende di intelligenza artificiale come OpenAI e Midjourney hanno utilizzato almeno in parte i dati raccolti da altri, anziché raccoglierli direttamente. Quindi, non sarebbero gli autori dei dati originali a essere responsabili della violazione?

Nel contesto di questa recente situazione di Midjourney, i modelli di Midjourney, come altri, riprodurranno sempre una miscela di opere contenute nei suoi dati. Gli artisti non possono dimostrare facilmente quali pezzi hanno utilizzato. 

Ad esempio, in una recente causa per copyright contro Midjourney, Stability AI e DeviantArt, è stata presentata una domanda di risarcimento. è stato licenziato (da allora è è stato ripresentato con nuovi querelanti), il giudice federale Orrick ha individuato diversi difetti nel modo in cui sono state formulate le richieste di risarcimento, in particolare nella comprensione del funzionamento dei generatori di immagini AI. 

La causa originale sosteneva che Stability AI, nell'addestramento del suo modello Stable Diffusion, conservava copie compresse delle immagini. 

Stability AI ha smentito questa affermazione, chiarendo che il processo di addestramento prevede l'estrazione di attributi come linee, sfumature e colori e lo sviluppo di parametri basati su questi attributi, piuttosto che la memorizzazione di copie delle immagini.

La sentenza di Orrick ha evidenziato la necessità per i querelanti di modificare le loro richieste di risarcimento per rappresentare in modo più accurato il funzionamento di questi modelli di intelligenza artificiale. 

Ciò include la necessità di una spiegazione più chiara se la richiesta di risarcimento nei confronti di Midjourney sia dovuta all'uso di Stable Diffusion, all'uso indipendente di immagini di addestramento o a entrambi (poiché Midjourney è anche accusata di usare i modelli di Stability AI, che presumibilmente utilizzano opere protette da copyright). 

Un'altra sfida per i querelanti è dimostrare che gli output di Midjourney sono sostanzialmente simili alle opere d'arte originali. Orrick ha osservato che gli stessi querelanti hanno ammesso che è improbabile che le immagini prodotte da Stable Diffusion corrispondano strettamente a qualsiasi immagine specifica nei dati di addestramento. 

A partire da ora, il caso è vivoIl tribunale ha respinto gli ultimi tentativi delle aziende di AI di respingere le richieste di risarcimento degli artisti. 

L'utilizzo del dataset LAION è stato messo in gioco

Le cause legali presentate contro Midjourney e co. hanno anche sottolineato il loro potenziale utilizzo del set di dati LAION-5B, una raccolta di 5,85 miliardi di immagini provenienti da Internet, compresi i contenuti protetti da copyright. 

Stanford ha recentemente criticato LAION per aver contenuto immagini sessuali illecite, tra cui abusi sessuali su minori e vari contenuti sessisti, razzisti e altrimenti deplorevoli - tutte cose che ora "vivono" anche all'interno dei modelli di intelligenza artificiale da cui la società sta iniziando a dipendere per usi creativi e professionali. 

Le implicazioni a lungo termine di questo fenomeno sono molto dibattute, ma il fatto che queste IA siano state addestrate in primo luogo su lavori rubati e in secondo luogo su contenuti illegali non getta una luce positiva sullo sviluppo delle IA in generale. 

I commenti dello sviluppatore di Midjourney sono stati ampiamente criticati sui social media e il forum di Y Combinator.

È molto probabile che nel 2024 si scateneranno altri infuocati dibattiti legali e che il capitolo del Far West dello sviluppo dell'IA stia per concludersi.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni