Meer dan 16.000 artiestennamen zijn in verband gebracht met de niet-consensuele training van Midjourney's beeldgeneratiemodellen.
De Midjourney artiestendatabase is toegevoegd aan een gewijzigde rechtszaak tegen Stability AI, DeviantArt en Midjourney., ingediend onder Bijlage J, en in een onlangs uitgelekte openbare Google-spreadsheet, waarvan een deel kan worden bekeken in de Internet Archief hier.
Kunstenaar Jon Lam deelde screenshots op X van een Midjourney Discord chat waar ontwikkelaars discussiëren over het gebruik van artiestennamen en stijlen van Wikipedia en andere bronnen.
De spreadsheet zou oorspronkelijk afkomstig zijn van het ontwikkelingsteam van Midjourney en sluit aan bij de uitgelekte Discord-chats van de Midjourney-ontwikkelaars, waarin erop wordt gezinspeeld dat het werk van de artiest wordt gekoppeld aan 'stijlen'.
Door het werk van artiesten te coderen als 'stijlen', kan Midjourney efficiënt werk in hun stijl recreëren.
Lam schrijft: "Midjourney ontwikkelaars betrapt op het bespreken van witwassen, en het creëren van een database van Artiesten (die zijn ontmenselijkt tot stijlen."
Lam deelde ook video's van lijsten met artiesten, waaronder die voor de Midjourney-stijlen en een andere lijst met 'voorgestelde artiesten'. Veel X-gebruikers verklaarden dat hun namen op deze lijsten stonden.
Midjourney ontwikkelaars betrapten op het bespreken van witwaspraktijken en het creëren van een database van Artiesten (die zijn ontmenselijkt tot stijlen) om Midjourney uit te trainen. Dit is ingediend als bewijs voor de rechtszaak. Prompt ingenieurs, jullie "vaardigheden" zijn niet van julliehttps://t.co/wAhsNjt5Kz pic.twitter.com/EBvySMQC0P
- Jon Lam #CreateDontScrape (@JonLamArt) 31 december 2023
Eén screenshot lijkt een verklaring te tonen van Midjourney CEO David Holz die de toevoeging van 16.000 artiesten aan het trainingsprogramma viert.
Een andere toont een Midjourney-ontwikkelaar die bespreekt dat je "het moet witwassen" via een "Codex", hoewel het zonder context moeilijk te zeggen is of dit verwijst naar het werk van artiesten.
Anderen (geen medewerkers van Midjourney) in datzelfde gesprek verwijzen naar hoe het verwerken van kunstwerken door een AI-model het in wezen ontdoet van auteursrechten.
De ene zegt, "het enige wat je hoeft te doen is die geschraapte datasets gebruiken en het gemakshalve vergeten wat je hebt gebruikt om het model te trainen. Boem juridische problemen voor altijd opgelost."
Hoe rechtszaken zich ontwikkelen
In rechtszaken die zijn aangespannen tegen Midjourney, Stability AI en ook OpenAI, Meta en Google (maar dan voor tekstgebaseerd werk in plaats van afbeeldingen), hebben artiesten, schrijvers en anderen het moeilijk gevonden om te bewijzen dat hun werk echt woordelijk 'binnen' het model zit.
Dat zou het rokende pistool zijn dat ze nodig hebben om schending van het auteursrecht te bewijzen.
Auteursrecht blijft in het algemeen slecht gedefinieerd in het tijdperk van AI. AI-modellen worden getraind op gegevens die ergens vandaan moeten komen, en wat is een betere bron om die gegevens te vinden dan het internet?
De ontwikkelaars 'schrapen' wat wordt aangeduid als 'open', 'open-source' of 'openbare' gegevens van het internet, maar ook deze begrippen zijn slecht gedefinieerd. Je zou kunnen zeggen dat toen AI-ontwikkelaars de opkomende goudkoorts roken, ze zoveel mogelijk 'open' gegevens van het internet haalden en gebruikten om hun modellen te trainen.
Juridische processen zijn traag; in vergelijking daarmee gaat AI razendsnel. Het was heel gemakkelijk voor ontwikkelaars om de auteurswet te omzeilen en modellen te trainen lang voordat de houders van auteursrechten en de wet die intellectueel eigendom regelt konden reageren.
Het reactieproces is nu aan de gang, maar zowel het AI-trainingsproces als het technische proces dat betrokken is bij het genereren van AI-outputs (bijv. tekst of afbeeldingen) uit gebruikersinputs stellen de aard van het intellectueel eigendomsrecht op de proef.
Specifiek, het is a) moeilijk om te bewijzen dat AI modellen zeker getraind zijn op auteursrechtelijk beschermd materiaal en b) moeilijk om te bewijzen dat hun output auteursrechtelijk beschermd materiaal voldoende repliceert.
Dan is er nog de kwestie van verantwoording. AI-bedrijven zoals OpenAI en Midjourney gebruikten ten minste gedeeltelijk gegevens die door anderen waren verzameld in plaats van ze zelf te verzamelen. Zijn de oorspronkelijke dataschrapers dan niet aansprakelijk voor inbreuk?
In de context van deze recente situatie bij Midjourney zullen de modellen van Midjourney, net als andere modellen, altijd een mix van werken reproduceren die in de gegevens zijn opgenomen. Kunstenaars kunnen niet gemakkelijk bewijzen welke stukken ze hebben gebruikt.
Bijvoorbeeld, toen een recente auteursrechtzaak tegen Midjourney, Stability AI en DeviantArt werd ontslagen (het is sinds opnieuw ingediend met nieuwe eisers), stelde federale rechter Orrick verschillende tekortkomingen vast in de manier waarop de claims waren geformuleerd, met name in hun begrip van hoe AI-beeldgeneratoren functioneren.
In de oorspronkelijke rechtszaak werd beweerd dat Stability AI bij het trainen van het Stable Diffusion-model gecomprimeerde kopieën van de afbeeldingen opsloeg.
Stability AI weerlegde dit door te verduidelijken dat het trainingsproces bestaat uit het extraheren van attributen zoals lijnen, tinten en kleuren en het ontwikkelen van parameters op basis van deze attributen in plaats van het opslaan van kopieën van de afbeeldingen.
De uitspraak van Orrick benadrukte de noodzaak voor de eisers om hun claims aan te passen om de werking van deze AI-modellen nauwkeuriger weer te geven.
Dit omvat een behoefte aan een duidelijkere uitleg over de vraag of de claim tegen Midjourney te wijten was aan het gebruik van Stable Diffusion, het onafhankelijke gebruik van trainingsafbeeldingen, of beide (aangezien Midjourney ook wordt beschuldigd van het gebruik van de modellen van Stability AI, die naar verluidt auteursrechtelijk beschermde werken gebruiken).
Een andere uitdaging voor de eisers is om aan te tonen dat de outputs van Midjourney substantieel overeenkomen met hun originele kunstwerken. Orrick merkte op dat de eisers zelf toegaven dat het onwaarschijnlijk is dat de outputafbeeldingen van Stable Diffusion nauw overeenkomen met een specifieke afbeelding in de trainingsgegevens.
Vanaf nu, de zaak leeftDe rechtbank heeft de meest recente pogingen van AI-bedrijven om de claims van de artiesten te verwerpen afgewezen.
Gen Ai techbros willen je doen geloven dat de rechtszaak dood is of verworpen, nee, de rechtszaak is nog steeds springlevend en er zijn meer bewijzen en eisers aan de zaak toegevoegd.
Bijgewerkt casefile hier.https://t.co/uTqs6grWRE
- Jon Lam #CreateDontScrape (@JonLamArt) 2 januari 2024
.
LAION-datasetgebruik in de mix gegooid
Rechtszaken tegen Midjourney en co. benadrukten ook hun mogelijke gebruik van de LAION-5B dataset - een compilatie van 5,85 miljard afbeeldingen van internetbronnen, inclusief auteursrechtelijk beschermde inhoud.
Stanford heeft onlangs LAION voor het bevatten van illegale seksuele beelden, inclusief seksueel misbruik van kinderen en diverse seksistische, racistische en anderszins betreurenswaardige inhoud - die nu allemaal ook 'leeft' in de AI-modellen waar de maatschappij afhankelijk van begint te worden voor creatieve en professionele toepassingen.
Over de langetermijngevolgen daarvan wordt druk gediscussieerd, maar het feit dat deze AI's mogelijk ten eerste zijn getraind op gestolen werk en ten tweede op illegale inhoud, werpt geen positief licht op de ontwikkeling van AI in het algemeen.
De opmerkingen van de ontwikkelaar over Midjourney zijn op grote schaal bekritiseerd op sociale media en het Y Combinator-forum.
Het is zeer waarschijnlijk dat er in 2024 nog meer vurige juridische debatten zullen volgen en dat het Wilde Westen van de AI-ontwikkeling ten einde loopt.