16.000 artistnamn läckte kontroversiellt ut som Midjourney "styles"

5 januari 2024

Midjourney AI

Över 16.000 konstnärsnamn har kopplats samman med den icke-konsensuella träningen av Midjourneys bildgenereringsmodeller.

Midjourneys artistdatabas är bifogad till en ändrad stämningsansökan som lämnats in mot Stability AI, DeviantArt och Midjourney, arkiverad under Exhibit J, och i ett nyligen läckt offentligt Google-kalkylblad, varav en del kan ses i Internet Archive här

Konstnären Jon Lam delade skärmdumpar på X från en Midjourney Discord-chatt där utvecklare diskuterar att använda artistnamn och stilar från Wikipedia och andra källor.

Kalkylbladet tros ursprungligen ha hämtats från Midjourneys utvecklingsteam och kvadraterar upp med de läckta Discord-chattarna från Midjourney-utvecklare, som antyder att konstnärens arbete kartläggs till "stilar".

Genom att koda konstnärers verk som "stilar" kan Midjourney effektivt återskapa verk i deras stil. 

Lam skriver: "Midjourney-utvecklare fångades när de diskuterade penningtvätt och skapade en databas över artister (som har avhumaniserats till stilar."

Lam delade också videor med listor över artister, inklusive de som användes för Midjourney-stilar och en annan lista över "föreslagna artister". Många X-användare uppgav att deras namn fanns på dessa listor. 

En skärmdump verkar visa ett uttalande av Midjourneys VD David Holz som firar att 16.000 artister har anslutit sig till utbildningsprogrammet. 

En annan visar en Midjourney-utvecklare som diskuterar att du måste "tvätta det" genom en "Codex", men utan sammanhang är det svårt att säga om detta hänvisar till konstnärers arbete.

Andra (inte Midjourney-anställda) i samma samtal hänvisar till hur bearbetning av konstverk genom en AI-modell i huvudsak avskiljer det från upphovsrätten.

En säger: "Allt du behöver göra är att bara använda dessa skrapade dataset och bekvämt glömma vad du använde för att träna modellen. Boom juridiska problem lösta för alltid."

Hur rättsfall utvecklas

I rättsfall mot Midjourney, Stability AI och även OpenAI, Meta och Google (men för textbaserat arbete snarare än bilder) har konstnärer, författare och andra funnit det svårt att bevisa att deras arbete verkligen är "inuti" modellen ordagrant.

Det skulle vara den rykande pistol de behöver för att bevisa upphovsrättsbrott.  

Upphovsrätten är i allmänhet fortfarande dåligt definierad i AI-eran. AI-modeller tränas på data som måste komma någonstans ifrån, och det finns ingen bättre källa att hitta den datan på än internet.

Utvecklarna "skrapar" vad som kallas "öppen", "öppen källkod" eller "offentlig" data från internet, men återigen är dessa begrepp dåligt definierade. Man kan säga att när AI-utvecklarna kände lukten av den förestående guldruschen tog de så mycket "öppna" data från internet som möjligt och använde dem för att träna sina modeller.

Juridiska processer är långsamma; AI är blixtsnabbt i jämförelse. Det var mycket lätt för utvecklare att kringgå upphovsrättslagstiftningen och träna modeller långt innan upphovsrättsinnehavarna och den lagstiftning som reglerar immateriella rättigheter kunde reagera.

Reaktionsprocessen är nu igång, men både AI-utbildningsprocessen och den tekniska processen för att generera AI-resultat (t.ex. text eller bilder) från användarinmatningar utmanar immaterialrätten.

Det är a) svårt att bevisa att AI-modeller definitivt tränas på upphovsrättsskyddat material och b) svårt att bevisa att deras resultat replikerar upphovsrättsskyddat material i tillräcklig utsträckning.

Det finns också en fråga om ansvarsskyldighet. AI-företag som OpenAI och Midjourney använde åtminstone delvis data som skördats av andra snarare än att skörda dem själva. Så skulle det inte vara de ursprungliga dataskraparna som är ansvariga för intrång?

I samband med den senaste situationen på Midjourney kommer Midjourneys modeller, liksom andra, alltid att reproducera en blandning av verk som finns i dess data. Konstnärer kan inte enkelt bevisa vilka verk de har använt. 

Till exempel, när ett upphovsrättsmål nyligen mot Midjourney, Stability AI och DeviantArt avskedades (det är sedan har lämnats in på nytt med nya kärandeparter), identifierade den federala domaren Orrick flera brister i det sätt på vilket kraven formulerades, särskilt i deras förståelse av hur AI-bildgeneratorer fungerar. 

I den ursprungliga stämningsansökan hävdades att Stability AI, vid träning av sin Stable Diffusion-modell, lagrade komprimerade kopior av bilderna. 

Stability AI tillbakavisade detta och klargjorde att träningsprocessen innebär att man extraherar attribut som linjer, nyanser och färger och utvecklar parametrar baserade på dessa attribut snarare än att lagra kopior av bilderna.

Orricks beslut framhöll att kärandena måste ändra sina yrkanden så att de på ett mer korrekt sätt återger hur dessa AI-modeller fungerar. 

Detta inkluderar ett behov av en tydligare förklaring av huruvida kravet mot Midjourney berodde på dess användning av Stable Diffusion, dess oberoende användning av träningsbilder, eller båda (eftersom Midjourney också anklagas för att använda Stability AI:s modeller, som påstås använda upphovsrättsskyddade verk). 

En annan utmaning för kärandena är att visa att Midjourneys resultat i allt väsentligt liknar deras ursprungliga konstverk. Orrick noterade att kärandena själva medgav att det är osannolikt att utgångsbilderna från Stable Diffusion nära matchar någon specifik bild i träningsdata. 

Från och med nu, fallet är levande, där domstolen avvisade AI-bolagens senaste försök att avvisa artisternas krav. 

Användning av LAION-dataset i mixen

Rättsfall som lämnats in mot Midjourney och co. betonade också deras potentiella användning av LAION-5B-datasetet - en sammanställning av 5,85 miljarder bilder från internet, inklusive upphovsrättsskyddat innehåll. 

Stanford kritiserade nyligen LAION för att ha innehållit olagliga sexuella bilder, inklusive sexuella övergrepp mot barn och diverse sexistiskt, rasistiskt och på andra sätt bedrövligt innehåll - allt detta "lever" nu också i de AI-modeller som samhället börjar bli beroende av för kreativa och professionella ändamål. 

De långsiktiga konsekvenserna av detta är omdiskuterade, men det faktum att dessa AI:er möjligen i första hand är utbildade på stulet arbete och i andra hand på olagligt innehåll kastar inte ett positivt ljus över AI-utvecklingen i allmänhet. 

Midjourney-utvecklarens kommentarer har fått stor kritik i sociala medier och Y Combinator-forumet.

Det är mycket troligt att 2024 kommer att bjuda på fler heta juridiska debatter, och Vilda Västern-kapitlet i AI-utvecklingen kan vara på väg mot sitt slut.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar