16 000 artistnavn lekket kontroversielt ut som Midjourneys "styles"

5. januar 2024

Midtveis i reisen AI

Over 16 000 kunstnernavn har blitt knyttet til den ikke-samtykkebaserte treningen av Midjourneys bildeskapende modeller.

Midjourneys artistdatabase er vedlagt et endret søksmål mot Stability AI, DeviantArt og Midjourney, arkivert under Bilag J, og i et nylig lekket offentlig Google-regneark, hvorav en del kan sees i Internettarkiv her

Kunstneren Jon Lam delte skjermbilder på X fra en Midjourney Discord-chat der utviklere diskuterer bruk av artistnavn og stiler fra Wikipedia og andre kilder.

Regnearket skal opprinnelig ha blitt hentet fra Midjourneys utviklingsteam og tar opp de lekkede Discord-chattene fra Midjourney-utviklerne, som antyder at kunstnerens arbeid blir kartlagt til 'stiler'.

Ved å kode kunstnerens arbeid som "stiler" kan Midjourney effektivt gjenskape verk i deres stil. 

Lam skriver: "Midjourney-utviklere ble tatt i å diskutere hvitvasking og opprettelse av en database over artister (som har blitt dehumanisert til stiler)."

Lam delte også videoer av lister over artister, inkludert de som ble brukt for Midjourney-stiler og en annen liste over "foreslåtte artister". Mange X-brukere oppga at navnene deres sto på disse listene. 

Et skjermbilde ser ut til å vise en uttalelse fra Midjourneys administrerende direktør David Holz, som feirer at 16 000 artister har sluttet seg til opplæringsprogrammet. 

En annen viser en Midjourney-utvikler som diskuterer at man må "hvitvaske det" gjennom en "Codex", men uten kontekst er det vanskelig å si om dette refererer til kunstnernes arbeid.

Andre (ikke Midjourney-ansatte) i den samme samtalen viser til hvordan det å behandle kunstverk gjennom en AI-modell i bunn og grunn fjerner det fra opphavsretten.

Den ene sier: "Alt du trenger å gjøre, er å bruke de skrapede datasettene, og så glemmer du hva du brukte til å trene opp modellen. Boom, juridiske problemer er løst for alltid."

Hvordan rettssaker utvikler seg

I rettssaker mot Midjourney, Stability AI, og også OpenAI, Meta og Google (men for tekstbasert arbeid, ikke bilder), har kunstnere, forfattere og andre funnet det vanskelig å bevise at arbeidet deres virkelig er "inne" i modellen ordrett.

Det ville være det avgjørende beviset de trenger for å bevise brudd på opphavsretten.  

Opphavsrett er generelt sett fortsatt dårlig definert i AI-æraen. AI-modeller trenes opp på data som må komme fra et sted, og hva er vel bedre enn internett for å finne disse dataene?

Utviklerne "skraper" det som kalles "åpne", "open source" eller "offentlige" data fra internett, men igjen er disse begrepene dårlig definert. Man kan kanskje si at da AI-utviklere luktet det forestående gullrushet, beslagla de så mye "åpne" data fra internett som de kunne, og brukte dem til å trene opp modellene sine.

Juridiske prosesser er langsomme, mens kunstig intelligens går lynraskt til sammenligning. Det var veldig enkelt for utviklere å omgå opphavsretten og trene opp modeller lenge før rettighetshaverne og åndsverksloven kunne reagere.

Reaksjonsprosessen er nå i gang, men både opplæringsprosessen for kunstig intelligens og den tekniske prosessen som er involvert i å generere AI-resultater (f.eks. tekst eller bilder) fra brukerens input, utfordrer immaterialretten.

Det er a) vanskelig å bevise at AI-modeller definitivt er trent på opphavsrettslig beskyttet materiale, og b) vanskelig å bevise at utdataene deres replikerer opphavsrettslig beskyttet materiale i tilstrekkelig grad.

Det er også et spørsmål om ansvarlighet. AI-selskaper som OpenAI og Midjourney brukte i det minste delvis data som var innhentet av andre, i stedet for å høste dem selv. Er det ikke da de opprinnelige dataskraperne som er ansvarlige for krenkelser?

I forbindelse med den nylige situasjonen hos Midjourney vil Midjourneys modeller, i likhet med andre, alltid gjengi en blanding av verk som finnes i dataene. Kunstnere kan ikke enkelt bevise hvilke verk de har brukt. 

For eksempel, da en nylig opphavsrettssak mot Midjourney, Stability AI og DeviantArt ble avskjediget (det er siden blitt sendt inn på nytt med nye saksøkere), identifiserte den føderale dommeren Orrick flere mangler i måten kravene var formulert på, særlig når det gjaldt forståelsen av hvordan AI-bildegeneratorer fungerer. 

I det opprinnelige søksmålet ble det hevdet at Stability AI lagret komprimerte kopier av bildene i forbindelse med opplæringen av Stable Diffusion-modellen. 

Stability AI tilbakeviste dette, og presiserte at opplæringsprosessen innebærer å trekke ut attributter som linjer, nyanser og farger og utvikle parametere basert på disse attributtene i stedet for å lagre kopier av bildene.

Orricks kjennelse understreket behovet for at saksøkerne endrer kravene sine for å gi en mer nøyaktig fremstilling av hvordan disse AI-modellene fungerer. 

Det er blant annet behov for en tydeligere redegjørelse for om kravet mot Midjourney skyldes bruken av Stable Diffusion, den uavhengige bruken av treningsbilder eller begge deler (ettersom Midjourney også anklages for å bruke Stability AIs modeller, som angivelig bruker opphavsrettsbeskyttede verk). 

En annen utfordring for saksøkerne er å bevise at Midjourneys resultater i det vesentlige ligner på de originale kunstverkene. Orrick bemerket at saksøkerne selv innrømmet at det er usannsynlig at utgangsbildene fra Stable Diffusion ligger tett opp til noe spesifikt bilde i treningsdataene. 

Fra nå av, saken er i live, der retten avviste AI-selskapenes siste forsøk på å avvise kunstnernes krav. 

Bruk av LAION-datasett i miksen

I rettssakene mot Midjourney og co. ble det også lagt vekt på deres potensielle bruk av LAION-5B-datasettet - en samling av 5,85 milliarder bilder fra internett, inkludert opphavsrettsbeskyttet innhold. 

Stanford kritiserte nylig LAION for å inneholde ulovlige seksuelle bilder, inkludert seksuelt misbruk av barn og diverse sexistisk, rasistisk og på andre måter forkastelig innhold - alt dette "bor" nå også i AI-modellene som samfunnet begynner å bli avhengig av for kreativ og profesjonell bruk. 

De langsiktige konsekvensene av dette er omdiskutert, men det faktum at disse AI-ene muligens for det første er opplært på stjålet arbeid og for det andre på ulovlig innhold, kaster ikke noe positivt lys over AI-utviklingen generelt. 

Midjourney-utviklerens kommentarer har fått mye kritikk på sosiale medier og Y Combinator-forumet.

Det er svært sannsynlig at 2024 vil by på flere heftige juridiske debatter, og at kapittelet om det ville vesten i AI-utviklingen kan være på vei mot slutten.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser