Forskere trener opp en modell til å skape bilder uten å "se" opphavsrettsbeskyttet arbeid

21. mai 2024

  • Forskere ved University of Texas trente opp en bildemodell på korrupte data
  • Til tross for at bildene blir forvrengt og oppstykket, fungerer den fortsatt utmerket
  • Dette viser hvordan bildegenereringsmodeller kan lære uten opphavsrettsdata
Generering av bilder

Forskere ved University of Texas i Austin har utviklet et innovativt rammeverk for å trene opp AI-modeller på bilder som er sterkt korrupte. 

Metoden kalles Ambient Diffusion, og gjør det mulig for AI-modeller å "hente inspirasjon" fra bilder uten direkte kopiering av dem.

Konvensjonelle tekst-til-bilde-modeller som brukes av DALL-E, Midjourney og Stable Diffusion risikerer brudd på opphavsretten fordi de er opplært på datasett som inneholder opphavsrettsbeskyttede bilder, noe som fører til at de noen ganger utilsiktet kopierer disse bildene. 

Ambient Diffusion snur dette på hodet ved å trene opp modeller med bevisst korrupte data.

I studieForskerteamet, som består av Alex Dimakis og Giannis Daras fra Electrical and Computer Engineering-avdelingen ved UT Austin og Constantinos Daskalakis fra MITtrente en Stable Diffusion XL-modell på et datasett med 3000 kjendisbilder. 

I utgangspunktet ble det observert at modellene som var trent opp på rene data, åpenbart kopierte treningseksemplene. 

Men når treningsdataene ble ødelagt - opp til 90% av pikslene ble tilfeldig maskert - produserte modellen likevel unike bilder av høy kvalitet.

Dette betyr at den kunstige intelligensen aldri blir eksponert for gjenkjennelige versjoner av originalbildene, slik at den ikke kan kopiere dem.

"Rammeverket vårt gjør det mulig å kontrollere avveiningen mellom memorering og ytelse," forklarte Giannis Daras, en doktorgradsstudent i informatikk som ledet arbeidet. 

"Etter hvert som korrupsjonsnivået som oppstår under opplæringen øker, reduseres memoreringen av opplæringssettet."

Vitenskapelige og medisinske bruksområder

Ambient Diffusion kan brukes til mer enn å løse opphavsrettslige problemer. 

Ifølge professor Adam Klivans, en av medarbeiderne i prosjektet, kan rammeverket vise seg å være nyttig også for vitenskapelige og medisinske anvendelser. Det gjelder i prinsippet all forskning der det er dyrt eller umulig å ha et fullstendig sett med ukorrupte data, fra avbildning av sorte hull til visse typer MR-skanninger."

Dette er spesielt fordelaktig på områder med begrenset tilgang til ukorrupte data, som for eksempel astronomi og partikkelfysikk

På disse og andre felt kan dataene være ekstremt støyende, av dårlig kvalitet eller sparsomme, slik at meningsfulle data er i stort mindretall i forhold til ubrukelige data. Her kan det være nyttig å lære modeller å bruke suboptimale data mer effektivt.

Hvis Ambient Diffusion-tilnærmingen ble videreutviklet, kunne AI-selskaper lage funksjonelle tekst-til-bilde-modeller samtidig som de respekterer rettighetene til de opprinnelige innholdsskaperne og unngår juridiske problemer.

Selv om det ikke ville løse bekymringene for at AI-bildeverktøy reduserer arbeidstilbudet for ekte kunstnere, ville det i det minste beskytte verkene deres mot å bli replikert i utdata ved et uhell.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser