Ed Newton-Rex, ex-VP van Audio bij Stability AI, kondigde de lancering aan van 'Fairly Trained', een non-profitorganisatie die generatieve AI-bedrijven certificeert voor eerlijkere trainingsdatapraktijken.
Het initiatief wil een onderscheid maken tussen bedrijven die hun AI trainen op oneerlijk afgeschraapte gegevens en bedrijven die een ethisch verantwoorde aanpak hanteren door hun eigen gegevens te licenseren of te creëren.
Newton-Rex verklaarde op X: "Het is moeilijk om te weten welke generatieve AI-bedrijven trainen op geschraapte data en welke een meer ethische aanpak hanteren door licenties te verstrekken. Daarom lanceren we vandaag Fairly Trained, een non-profit organisatie die generatieve AI-bedrijven certificeert voor eerlijkere trainingsdatapraktijken."
Het is moeilijk om te weten welke generatieve AI-bedrijven trainen op geschraapte data en welke een meer ethische aanpak hanteren door licenties te verstrekken. Daarom lanceren we vandaag Fairly Trained, een non-profit organisatie die AI-bedrijven certificeert voor eerlijkere trainingsdatapraktijken.
Onze eerste certificering, genaamd...
- Ed Newton-Rex (@ednewtonrex) 17 januari 2024
De kritiek op het laissez-faire schrapen van gegevens voor het trainen van AI-modellen neemt toe, een proces dat de houders van auteursrechten woedend maakt. Het debat laaide eerder in januari weer op toen een lijst van 16.000 artiesten gebruikt om Midjourney te trainen en te optimaliseren was uitgelekt.
Daarna volgen bedrijven als Magic: The Gathering en Wacom, die vertrouwen op menselijke creativiteit, werden hevig bekritiseerd voor het gebruik van door AI gegenereerde afbeeldingen op sociale media. Ondertussen doken op sociale media berichten op over AI-baanvervangers, ook bij Duolingo.
Midjourney en Stability AI, het voormalige bedrijf van Newton-Rex, zijn momenteel verwikkeld in een auteursrechtszaak die dit jaar in een uitspraak zal resulteren. Het is een van de vele klachten die zijn ingediend tegen OpenAI, Anthropic, Meta, Midjourney, Stability en anderen.
Stability AI is onder vuur komen te liggen vanwege het gebruik van miljoenen auteursrechtelijk beschermde afbeeldingen en audiobestanden in hun modellen, wat vragen opriep over de grenzen van 'fair use' - iets wat Newton-Rex nu wil aanpakken met het Fairly Trained programma.
Newton-Rex nam vorig jaar ontslag bij Stability AI met de volgende verklaring op X: "Ik heb ontslag genomen uit mijn rol als hoofd van het audioteam bij Stability AI omdat ik het niet eens ben met de mening van het bedrijf dat het trainen van generatieve AI-modellen op auteursrechtelijk beschermde werken 'fair use' is."
Ik heb ontslag genomen uit mijn rol als hoofd van het audioteam bij Stability AI, omdat ik het niet eens ben met de mening van het bedrijf dat het trainen van generatieve AI-modellen op auteursrechtelijk beschermde werken 'fair use' is.
Allereerst wil ik zeggen dat er veel mensen bij Stability...
- Ed Newton-Rex (@ednewtonrex) 15 november 2023
Ondanks zijn ontslag bij Stability AI, toonde Newton-Rex zich optimistisch over het bereiken van een harmonieuze relatie tussen generatieve AI en de creatieve industrie, wat nu wordt onderstreept door Fairly Trained.
Het eerlijk opgeleide programma
Fairly Trained' introduceert zijn eerste certificering, de 'Model certificaat (L).'
Het doel is om AI-modellen onder de aandacht te brengen die trainingsgegevens op ethische wijze gebruiken en ervoor zorgen dat er geen auteursrechtelijk beschermd werk wordt gebruikt zonder licentie. Dit geldt voor AI-modellen op verschillende gebieden, zoals het genereren van afbeeldingen en muziek.
Om aan de criteria te voldoen, moeten de trainingsgegevens ofwel:
- Contractueel overeengekomen met rechthebbenden.
- Onder een geschikte open licentie.
- In het wereldwijde publieke domein.
- Eigendom van de modelontwikkelaar.
Bedrijven moeten de rechtenstatus van hun trainingsgegevens grondig controleren en gedetailleerde dossiers van de gebruikte trainingsgegevens bijhouden. De aanvraag bestaat uit een gedetailleerde schriftelijke indiening en een beoordelingsproces, dat wordt afgesloten met een certificering en een jaarlijkse herevaluatie.
Hoewel Newton-Rex toegeeft dat deze eerste certificering niet alle zorgen rond generatieve AI-training wegneemt, zoals het opt-in vs. opt-out debat, is het wel een stap vooruit.
Tot nu toe is het programma goed ontvangen. Dr. Yair Adato van BRIA AI prees het, in een blogberichtWe zijn er trots op dat we de Fairly Trained-certificering steunen. Dit initiatief gaat de ondoorzichtigheid van de industrie bij het verkrijgen van gegevens tegen en zorgt ervoor dat bedrijven voldoen aan strenge ethische normen."
Christopher Horton, SVP bij Universal: "We zijn blij met de lancering van de Fairly Trained-certificering om bedrijven en makers te helpen bij het identificeren van verantwoorde generatieve AI-tools die zijn getraind op legaal en ethisch verkregen materiaal."
Fairly Trained heeft al negen generatieve AI-bedrijven gecertificeerd op het gebied van beeldgeneratie, muziekcreatie en spraaksynthese, waaronder Beatoven.AI, Boomy, BRIA AI, Endel, LifeScore, Rightsify, Somms.ai, Soundful en Tuney.
Het zal interessant zijn om te zien welke bedrijven zich aanmelden voor het programma en hoe transparant ze hun gegevens maken. Idealiter zou het publiek de datasets zelf moeten kunnen zien (mits het publiek domein of niet anderszins beschermd).
De certificering is enigszins complex, omdat de gegevens wereldwijd in het "publieke domein" moeten zijn, wat lastig kan zijn vanwege de verschillende auteursrechtwetten in verschillende rechtsgebieden.
Wat in het ene land als publiek domein wordt beschouwd, hoeft dat in een ander land niet te zijn. Een literair werk kan bijvoorbeeld 70 jaar na de dood van de auteur in de Verenigde Staten publiek domein worden, maar hetzelfde werk kan in Europa nog steeds onder het auteursrecht vallen.
In ieder geval impliceert de eis van Fairly Trained dat gegevens "wereldwijd in het publieke domein moeten zijn" een hoge standaard.
Zou dit het jaar kunnen worden van meer verantwoordelijkheid voor AI-bedrijven en transparantere gegevenspraktijken?