Ed Newton-Rex, tidigare vice vd för Audio på Stability AI, meddelade lanseringen av "Fairly Trained", en ideell organisation som ska certifiera generativa AI-företag för rättvisare praxis för utbildningsdata.
Initiativet syftar till att skilja mellan företag som tränar sin AI på orättvist skrapad data och de som antar ett mer etiskt förhållningssätt genom att licensiera eller skapa sin egen proprietära data.
Newton-Rex uppgav på X, "Det är svårt att veta vilka generativa AI-företag som tränar på skrapad data och vilka som tar ett mer etiskt tillvägagångssätt genom licensiering. Så idag lanserar vi Fairly Trained, en ideell organisation som certifierar generativa AI-företag för rättvisare träningsdatapraxis.
Det är svårt att veta vilka generativa AI-företag som tränar på skrapad data och vilka som tar ett mer etiskt tillvägagångssätt genom licensiering. Så idag lanserar vi Fairly Trained, en ideell organisation som certifierar gen AI-företag för rättvisare träningsdatapraxis.
Vår första certifiering, kallad...
- Ed Newton-Rex (@ednewtonrex) 17 januari 2024
Detta kommer mitt i en eskalerande kritik av laissez-faire-dataskrapning i syfte att träna AI-modeller, en process som har fått upphovsrättsinnehavare att svettas. Debatten tog ytterligare fart tidigare i januari när en lista med 16 000 artister som användes för att träna och optimera Midjourney läckte ut.
Därefter kommer företag som Magic: The Gathering och Wacom, som förlitar sig på mänsklig kreativitet, blev våldsamt utskällda för att ha använt AI-genererade bilder på sociala medier. Samtidigt kom rapporter om AI-jobbsersättningar på sociala medier, inklusive på Duolingo.
Midjourney och Stability AI, Newton-Rex tidigare företag, är för närvarande låsta i en stämning om upphovsrätt som är inställd på att utvecklas mot ett avgörande i år. Det är ett av många klagomål som lämnats in mot liknande OpenAI, Anthropic, Meta, Midjourney, Stability och andra.
Stability AI har granskats för att ha använt miljontals upphovsrättsskyddade bilder och ljudfiler i sina modeller, vilket har väckt frågor om gränserna för "fair use" - något som Newton-Rex nu avser att ta itu med genom programmet Fairly Trained.
Newton-Rex avgick från Stability AI förra året och uppgav på X: "Jag har avgått från min roll som ledare för Audio-teamet på Stability AI eftersom jag inte håller med om företagets åsikt att träning av generativa AI-modeller på upphovsrättsskyddade verk är 'rättvis användning'."
Jag har sagt upp mig från min roll som ledare för Audio-teamet på Stability AI, eftersom jag inte håller med om företagets åsikt att det är "fair use" att träna generativa AI-modeller på upphovsrättsskyddade verk.
Först och främst vill jag säga att det finns många människor på Stability som är djupt...
- Ed Newton-Rex (@ednewtonrex) 15 november 2023
Trots sin uppsägning från Stability AI uttryckte Newton-Rex optimism om att uppnå ett harmoniskt förhållande mellan generativ AI och de kreativa branscherna, vilket nu har understrukits av Fairly Trained.
Det rättvist utbildade programmet
"Fairly Trained" introducerar sin första certifiering,Licensierad modell (L) Certifiering.'
Målet är att lyfta fram AI-modeller som använder träningsdata på ett etiskt sätt och som säkerställer att inget upphovsrättsskyddat arbete används utan licens. Detta gäller AI-modeller inom flera olika områden, t.ex. bild- och musikgenerering.
För att uppfylla kriterierna måste utbildningsdata vara antingen:
- Överenskommes i avtal med rättighetsinnehavare.
- Under en lämplig öppen licens.
- I den globala offentliga domänen.
- Ägs av modellutvecklaren.
Företagen måste noggrant kontrollera rättighetsstatusen för sina utbildningsdata, och detaljerade register över de utbildningsdata som används måste upprätthållas. Ansökan omfattar en detaljerad skriftlig ansökan och en granskningsprocess, som avslutas med certifiering och årlig omprövning.
Även om Newton-Rex medger att denna första certifiering inte löser alla problem kring generativ AI-utbildning, till exempel debatten om opt-in vs. opt-out, är det ett steg framåt.
Hittills har programmet tagits emot väl. Dr Yair Adato från BRIA AI berömde den, som anges i ett blogginlägg, "Vi stöder stolt Fairly Trained-certifieringen. Detta initiativ motverkar branschens oklarhet i dataupphandling och säkerställer att företag uppfyller strikta etiska standarder."
Christopher Horton, SVP på Universal, säger: "Vi välkomnar lanseringen av Fairly Trained-certifieringen för att hjälpa företag och kreatörer att identifiera ansvarsfulla generativa AI-verktyg som har tränats på lagligt och etiskt erhållet material."
Fairly Trained har redan certifierat nio generativa AI-företag inom bildgenerering, musikskapande och röstsyntes, inklusive Beatoven.AI, Boomy, BRIA AI, Endel, LifeScore, Rightsify, Somms.ai, Soundful och Tuney.
Det ska bli intressant att se vilka företag som ansluter sig till programmet och hur öppna de är med sina data. Helst bör allmänheten kunna se datauppsättningarna själva (förutsatt att de är offentliga eller inte på annat sätt äganderättsligt skyddade).
Det finns en viss komplexitet i certifieringen, eftersom uppgifterna måste vara i "public domain globally", vilket kan vara svårt att navigera på grund av varierande upphovsrättslagar i olika jurisdiktioner.
Det som anses vara allmän egendom i ett land behöver inte vara det i ett annat. Till exempel kan ett litterärt verk bli allmän egendom i USA 70 år efter författarens död, men samma verk kan fortfarande vara upphovsrättsskyddat i Europa.
I vilket fall som helst innebär Fairly Trained's krav på att uppgifter ska vara "allmänt tillgängliga globalt" en hög standard.
Kan det här vara året då AI-företagen blir mer ansvarstagande och datapraxis blir mer transparent?