Over 16.000 kunstneres navne er blevet kædet sammen med den ikke-samtykkebaserede træning af Midjourneys billedgenereringsmodeller.
Midjourneys kunstnerdatabase er vedhæftet et ændret søgsmål, der er indgivet mod Stability AI, DeviantArt og Midjourney, arkiveret under Bilag J, og i et nyligt lækket offentligt Google-regneark, hvoraf en del kan ses i Internet Archive her.
Kunstneren Jon Lam delte skærmbilleder på X fra en Midjourney Discord-chat, hvor udviklerne diskuterer brugen af kunstnernavne og stilarter fra Wikipedia og andre kilder.
Regnearket menes oprindeligt at være hentet fra Midjourneys udviklingsteam og og følger op på de lækkede Discord-chats fra Midjourney-udviklerne, som hentyder til, at kunstnerens arbejde er knyttet til 'stilarter'.
Ved at kode kunstneres arbejde som 'stilarter' kan Midjourney effektivt genskabe arbejde i deres stil.
Lam skriver: "Midjourney-udviklere blev taget i at diskutere hvidvaskning og oprettelse af en database over kunstnere (som er blevet dehumaniseret til stilarter)."
Lam delte også videoer af lister over kunstnere, herunder dem, der blev brugt til Midjourney-stilarter, og en anden liste over 'foreslåede kunstnere'. Mange X-brugere sagde, at deres navne var på disse lister.
Midjourneys udviklere blev taget i at diskutere hvidvaskning og oprette en database over kunstnere (som er blevet dehumaniseret til stilarter) til at træne Midjourney ud fra. Dette er blevet indsendt som bevismateriale i forbindelse med retssagen. Hurtige ingeniører, jeres "færdigheder" er ikke jereshttps://t.co/wAhsNjt5Kz pic.twitter.com/EBvySMQC0P
- Jon Lam #CreateDontScrape (@JonLamArt) 31. december 2023
Et skærmbillede ser ud til at vise en erklæring fra Midjourneys CEO David Holz, der fejrer, at 16.000 kunstnere er kommet med i uddannelsesprogrammet.
En anden viser en Midjourney-udvikler, der diskuterer, at man skal "vaske det" gennem en "Codex", men uden kontekst er det svært at sige, om dette refererer til kunstneres arbejde.
Andre (ikke Midjourney-medarbejdere) i den samme samtale henviser til, hvordan behandling af kunstværker gennem en AI-model i bund og grund fjerner dem fra ophavsretten.
Den ene siger: "Du skal bare bruge de skrabede datasæt, og så glemmer du bekvemt, hvad du brugte til at træne modellen. Bum, juridiske problemer er løst for altid."
Hvordan retssager udvikler sig
I retssager mod Midjourney, Stability AI og også OpenAI, Meta og Google (men for tekstbaseret arbejde i stedet for billeder) har kunstnere, forfattere og andre fundet det svært at bevise, at deres arbejde virkelig er "inde i" modellen ordret.
Det ville være den rygende pistol, de har brug for til at bevise brud på ophavsretten.
Ophavsret er generelt stadig dårligt defineret i AI-æraen. AI-modeller trænes på data, der skal komme et sted fra, og hvilken bedre kilde til at finde disse data end internettet?
Udviklerne "skraber" det, der betegnes som "åbne", "open source" eller "offentlige" data fra internettet, men igen er disse begreber dårligt defineret. Man kan måske sige, at da AI-udviklerne lugtede det forestående guldrush, tog de så mange "åbne" data fra internettet, som de kunne, og brugte dem til at træne deres modeller.
Juridiske processer er langsomme; AI er lynhurtig i sammenligning. Det var meget nemt for udviklere at omgå loven om ophavsret og træne modeller, længe før indehaverne af ophavsret og loven om intellektuel ejendomsret kunne nå at reagere.
Reaktionsprocessen er nu i gang, men både AI-træningsprocessen og den tekniske proces, der er involveret i at generere AI-output (f.eks. tekst eller billeder) ud fra brugerinput, udfordrer lovgivningen om intellektuel ejendomsret.
Specifikt er det a) svært at bevise, at AI-modeller helt sikkert er trænet på copyright-materiale, og b) svært at bevise, at deres output replikerer copyright-materiale i tilstrækkelig grad.
Der er også spørgsmålet om ansvarlighed. AI-virksomheder som OpenAI og Midjourney brugte i det mindste delvist data, der var indsamlet af andre, i stedet for selv at indsamle dem. Så ville det ikke være de oprindelige dataskrabere, der var ansvarlige for krænkelse?
I forbindelse med den seneste situation hos Midjourney vil Midjourneys modeller, ligesom andre, altid gengive en blanding af værker, der er indeholdt i deres data. Kunstnere kan ikke nemt bevise, hvilke værker de har brugt.
For eksempel, da en nylig copyright-sag mod Midjourney, Stability AI og DeviantArt blev afvist (det er siden blevet indsendt igen med nye sagsøgere), identificerede forbundsdommer Orrick flere fejl i den måde, kravene var formuleret på, især i deres forståelse af, hvordan AI-billedgeneratorer fungerer.
I det oprindelige søgsmål blev det påstået, at Stability AI ved træning af sin Stable Diffusion-model lagrede komprimerede kopier af billederne.
Stability AI afviste dette og præciserede, at træningsprocessen involverer udtrækning af attributter som linjer, nuancer og farver og udvikling af parametre baseret på disse attributter i stedet for at gemme kopier af billederne.
Orricks afgørelse understregede behovet for, at sagsøgerne ændrer deres krav, så de mere præcist repræsenterer driften af disse AI-modeller.
Dette omfatter et behov for en klarere forklaring på, om kravet mod Midjourney skyldtes brugen af Stable Diffusion, den uafhængige brug af træningsbilleder eller begge dele (da Midjourney også beskyldes for at bruge Stability AI's modeller, som angiveligt bruger ophavsretligt beskyttede værker).
En anden udfordring for sagsøgerne er at bevise, at Midjourneys output i det væsentlige ligner deres originale kunstværker. Orrick bemærkede, at sagsøgerne selv indrømmede, at det er usandsynligt, at output-billederne fra Stable Diffusion matcher noget specifikt billede i træningsdataene.
Fra nu af, Sagen er i liveRetten har afvist AI-virksomhedernes seneste forsøg på at afvise kunstnernes krav.
Gen Ai techbros vil have dig til at tro, at retssagen er død eller afvist, men nej, retssagen lever stadig i bedste velgående, og flere beviser og sagsøgere er blevet føjet til sagsmappen.
Opdateret sagsmappe her.https://t.co/uTqs6grWRE
- Jon Lam #CreateDontScrape (@JonLamArt) 2. januar 2024
.
Brug af LAION-datasæt kastet ind i blandingen
Retssager mod Midjourney og co. understregede også deres potentielle brug af LAION-5B-datasættet - en samling af 5,85 milliarder billeder fra internettet, herunder ophavsretligt beskyttet indhold.
Stanford kritiserede for nylig LAION for at indeholde ulovlige seksuelle billeder, herunder seksuelt misbrug af børn og forskelligt sexistisk, racistisk og på anden måde beklageligt indhold - alt sammen noget, der nu også "lever" i de AI-modeller, som samfundet er begyndt at være afhængig af til kreative og professionelle formål.
De langsigtede konsekvenser af det er meget omdiskuterede, men det faktum, at disse AI'er muligvis for det første er trænet på stjålet arbejde og for det andet på ulovligt indhold, kaster ikke noget positivt lys over AI-udvikling generelt.
Midjourney-udviklerens kommentarer er blevet bredt kritiseret på de sociale medier og Y Combinator-forummet.
Det er meget sandsynligt, at 2024 vil byde på flere heftige juridiske debatter, og at det vilde vesten i AI-udviklingen måske er ved at være slut.