16.000 artiestennamen controversieel uitgelekt als Midjourney "stijlen"

5 januari 2024

AI halverwege de reis

Meer dan 16.000 artiestennamen zijn in verband gebracht met de niet-consensuele training van Midjourney's beeldgeneratiemodellen.

De Midjourney artiestendatabase is toegevoegd aan een gewijzigde rechtszaak tegen Stability AI, DeviantArt en Midjourney., ingediend onder Bijlage J, en in een onlangs uitgelekte openbare Google-spreadsheet, waarvan een deel kan worden bekeken in de Internet Archief hier

Kunstenaar Jon Lam deelde screenshots op X van een Midjourney Discord chat waar ontwikkelaars discussiëren over het gebruik van artiestennamen en stijlen van Wikipedia en andere bronnen.

De spreadsheet zou oorspronkelijk afkomstig zijn van het ontwikkelingsteam van Midjourney en sluit aan bij de uitgelekte Discord-chats van de Midjourney-ontwikkelaars, waarin erop wordt gezinspeeld dat het werk van de artiest wordt gekoppeld aan 'stijlen'.

Door het werk van artiesten te coderen als 'stijlen', kan Midjourney efficiënt werk in hun stijl recreëren. 

Lam schrijft: "Midjourney ontwikkelaars betrapt op het bespreken van witwassen, en het creëren van een database van Artiesten (die zijn ontmenselijkt tot stijlen."

Lam deelde ook video's van lijsten met artiesten, waaronder die voor de Midjourney-stijlen en een andere lijst met 'voorgestelde artiesten'. Veel X-gebruikers verklaarden dat hun namen op deze lijsten stonden. 

Eén screenshot lijkt een verklaring te tonen van Midjourney CEO David Holz die de toevoeging van 16.000 artiesten aan het trainingsprogramma viert. 

Een andere toont een Midjourney-ontwikkelaar die bespreekt dat je "het moet witwassen" via een "Codex", hoewel het zonder context moeilijk te zeggen is of dit verwijst naar het werk van artiesten.

Anderen (geen medewerkers van Midjourney) in datzelfde gesprek verwijzen naar hoe het verwerken van kunstwerken door een AI-model het in wezen ontdoet van auteursrechten.

De ene zegt, "het enige wat je hoeft te doen is die geschraapte datasets gebruiken en het gemakshalve vergeten wat je hebt gebruikt om het model te trainen. Boem juridische problemen voor altijd opgelost."

Hoe rechtszaken zich ontwikkelen

In rechtszaken die zijn aangespannen tegen Midjourney, Stability AI en ook OpenAI, Meta en Google (maar dan voor tekstgebaseerd werk in plaats van afbeeldingen), hebben artiesten, schrijvers en anderen het moeilijk gevonden om te bewijzen dat hun werk echt woordelijk 'binnen' het model zit.

Dat zou het rokende pistool zijn dat ze nodig hebben om schending van het auteursrecht te bewijzen.  

Auteursrecht blijft in het algemeen slecht gedefinieerd in het tijdperk van AI. AI-modellen worden getraind op gegevens die ergens vandaan moeten komen, en wat is een betere bron om die gegevens te vinden dan het internet?

De ontwikkelaars 'schrapen' wat wordt aangeduid als 'open', 'open-source' of 'openbare' gegevens van het internet, maar ook deze begrippen zijn slecht gedefinieerd. Je zou kunnen zeggen dat toen AI-ontwikkelaars de opkomende goudkoorts roken, ze zoveel mogelijk 'open' gegevens van het internet haalden en gebruikten om hun modellen te trainen.

Juridische processen zijn traag; in vergelijking daarmee gaat AI razendsnel. Het was heel gemakkelijk voor ontwikkelaars om de auteurswet te omzeilen en modellen te trainen lang voordat de houders van auteursrechten en de wet die intellectueel eigendom regelt konden reageren.

Het reactieproces is nu aan de gang, maar zowel het AI-trainingsproces als het technische proces dat betrokken is bij het genereren van AI-outputs (bijv. tekst of afbeeldingen) uit gebruikersinputs stellen de aard van het intellectueel eigendomsrecht op de proef.

Specifiek, het is a) moeilijk om te bewijzen dat AI modellen zeker getraind zijn op auteursrechtelijk beschermd materiaal en b) moeilijk om te bewijzen dat hun output auteursrechtelijk beschermd materiaal voldoende repliceert.

Dan is er nog de kwestie van verantwoording. AI-bedrijven zoals OpenAI en Midjourney gebruikten ten minste gedeeltelijk gegevens die door anderen waren verzameld in plaats van ze zelf te verzamelen. Zijn de oorspronkelijke dataschrapers dan niet aansprakelijk voor inbreuk?

In de context van deze recente situatie bij Midjourney zullen de modellen van Midjourney, net als andere modellen, altijd een mix van werken reproduceren die in de gegevens zijn opgenomen. Kunstenaars kunnen niet gemakkelijk bewijzen welke stukken ze hebben gebruikt. 

Bijvoorbeeld, toen een recente auteursrechtzaak tegen Midjourney, Stability AI en DeviantArt werd ontslagen (het is sinds opnieuw ingediend met nieuwe eisers), stelde federale rechter Orrick verschillende tekortkomingen vast in de manier waarop de claims waren geformuleerd, met name in hun begrip van hoe AI-beeldgeneratoren functioneren. 

In de oorspronkelijke rechtszaak werd beweerd dat Stability AI bij het trainen van het Stable Diffusion-model gecomprimeerde kopieën van de afbeeldingen opsloeg. 

Stability AI weerlegde dit door te verduidelijken dat het trainingsproces bestaat uit het extraheren van attributen zoals lijnen, tinten en kleuren en het ontwikkelen van parameters op basis van deze attributen in plaats van het opslaan van kopieën van de afbeeldingen.

De uitspraak van Orrick benadrukte de noodzaak voor de eisers om hun claims aan te passen om de werking van deze AI-modellen nauwkeuriger weer te geven. 

Dit omvat een behoefte aan een duidelijkere uitleg over de vraag of de claim tegen Midjourney te wijten was aan het gebruik van Stable Diffusion, het onafhankelijke gebruik van trainingsafbeeldingen, of beide (aangezien Midjourney ook wordt beschuldigd van het gebruik van de modellen van Stability AI, die naar verluidt auteursrechtelijk beschermde werken gebruiken). 

Een andere uitdaging voor de eisers is om aan te tonen dat de outputs van Midjourney substantieel overeenkomen met hun originele kunstwerken. Orrick merkte op dat de eisers zelf toegaven dat het onwaarschijnlijk is dat de outputafbeeldingen van Stable Diffusion nauw overeenkomen met een specifieke afbeelding in de trainingsgegevens. 

Vanaf nu, de zaak leeftDe rechtbank heeft de meest recente pogingen van AI-bedrijven om de claims van de artiesten te verwerpen afgewezen. 

LAION-datasetgebruik in de mix gegooid

Rechtszaken tegen Midjourney en co. benadrukten ook hun mogelijke gebruik van de LAION-5B dataset - een compilatie van 5,85 miljard afbeeldingen van internetbronnen, inclusief auteursrechtelijk beschermde inhoud. 

Stanford heeft onlangs LAION voor het bevatten van illegale seksuele beelden, inclusief seksueel misbruik van kinderen en diverse seksistische, racistische en anderszins betreurenswaardige inhoud - die nu allemaal ook 'leeft' in de AI-modellen waar de maatschappij afhankelijk van begint te worden voor creatieve en professionele toepassingen. 

Over de langetermijngevolgen daarvan wordt druk gediscussieerd, maar het feit dat deze AI's mogelijk ten eerste zijn getraind op gestolen werk en ten tweede op illegale inhoud, werpt geen positief licht op de ontwikkeling van AI in het algemeen. 

De opmerkingen van de ontwikkelaar over Midjourney zijn op grote schaal bekritiseerd op sociale media en het Y Combinator-forum.

Het is zeer waarschijnlijk dat er in 2024 nog meer vurige juridische debatten zullen volgen en dat het Wilde Westen van de AI-ontwikkeling ten einde loopt.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden