I ricercatori dell'Università del Texas di Austin hanno sviluppato una struttura innovativa per l'addestramento di modelli di intelligenza artificiale su immagini fortemente corrotte.
Conosciuto come Ambient Diffusion, questo metodo consente ai modelli di intelligenza artificiale di "trarre ispirazione" dalle immagini. senza copiandoli direttamente.
I modelli convenzionali testo-immagine utilizzati da DALL-EMidjourney e Stable Diffusion rischiano di violare il diritto d'autore perché sono addestrati su insiemi di dati che includono immagini protette da copyright, il che li porta a replicare inavvertitamente tali immagini.
Ambient Diffusion ribalta la situazione addestrando i modelli con dati deliberatamente corrotti.
Nel studioIl team di ricerca, composto da Alex Dimakis e Giannis Daras del dipartimento di ingegneria elettrica e informatica della UT Austin e da Constantinos Daskalakis del dipartimento di ingegneria informatica della UT Austin, ha condotto un'indagine su questo tema. MITha addestrato un modello Stable Diffusion XL su un set di 3.000 immagini di celebrità.
Inizialmente, si è osservato che i modelli addestrati su dati puliti copiavano palesemente gli esempi di addestramento.
Tuttavia, quando i dati di addestramento sono stati corrotti - mascherando in modo casuale fino a 90% dei pixel - il modello ha prodotto comunque immagini uniche e di alta qualità.
Ciò significa che l'IA non è mai esposta a versioni riconoscibili delle immagini originali, impedendole di copiarle.
"La nostra struttura permette di controllare il compromesso tra memorizzazione e prestazioni". ha spiegato Giannis Daras, uno studente di informatica che ha guidato il lavoro.
"All'aumentare del livello di corruzione incontrato durante l'addestramento, la memorizzazione del set di addestramento diminuisce".
Applicazioni scientifiche e mediche
Gli usi della diffusione ambientale vanno oltre la risoluzione dei problemi di copyright.
Secondo il professor Adam Klivans, collaboratore del progetto, "Il framework potrebbe rivelarsi utile anche per applicazioni scientifiche e mediche. Questo sarebbe vero per qualsiasi ricerca in cui è costoso o impossibile avere una serie completa di dati non corrotti, dall'imaging dei buchi neri ad alcuni tipi di risonanza magnetica".
Ciò è particolarmente vantaggioso nei settori con accesso limitato a dati non corrotti, come ad esempio astronomia e fisica delle particelle.
In questi e in altri campi, i dati possono essere estremamente rumorosi, di scarsa qualità o scarsi, il che significa che i dati significativi sono in gran parte superati da quelli inutili. In questo caso sarebbe utile insegnare ai modelli a utilizzare in modo più efficiente i dati non ottimali.
Se l'approccio di Ambient Diffusion fosse ulteriormente perfezionato, le aziende di IA potrebbero creare modelli di testo-immagine funzionali, rispettando i diritti dei creatori di contenuti originali ed evitando problemi legali.
Sebbene ciò non risolva i timori che gli strumenti per le immagini dell'IA riducano il bacino di lavoro degli artisti reali, almeno proteggerebbe le loro opere dall'essere accidentalmente replicate in output.