In de razendsnelle strijd om de AI-industrie te domineren, verleggen techgiganten ethische grenzen en testen ze de grenzen van het publieke vertrouwen.
Een patroon van recente onthullingen doet alarmbellen rinkelen over gegevensprivacy, eerlijke concurrentie en de concentratie van macht en talent.
Ten eerste, een onderzoek door Proof News en WIRED onthulde dat Apple, NVIDIA, Anthropic en Salesforce een dataset met ondertitels van meer dan 170.000 YouTube-video's hebben gebruikt om hun AI-modellen te trainen.
Deze dataset, die bekend staat als "YouTube Subtitles", werd samengesteld zonder toestemming van de makers van de inhoud, waardoor mogelijk de servicevoorwaarden van YouTube werden geschonden.
De schaal van deze dataminingoperatie is duizelingwekkend. Het omvat content van onderwijsinstellingen zoals Harvard, populaire YouTubers zoals MrBeast en PewDiePie, en zelfs grote nieuwszenders zoals The Wall Street Journal en de BBC.
Uit onderzoek blijkt dat een dataset die wordt gebruikt voor gen AI-training door Apple & anderen bevat auteursrechtelijk beschermde YouTube-transcripties die zonder toestemming zijn geopend. Meer info:
- De Pile-dataset bevat transcripts van 170.000 YouTube-video's.
- Gebruikt door Apple, Anthropic, Nvidia, Salesforce & meer... pic.twitter.com/RE0UjhumA3- Ed Newton-Rex (@ednewtonrex) 16 juli 2024
YouTube moet nog reageren, maar in april zei CEO Neal Mohan dat OpenAI video's zou kunnen gebruiken om tekst-naar-videomodel Sora te trainen. de servicevoorwaarden zou schendenen vertelde Bloomberg: "Als Sora inhoud van YouTube zou gebruiken, zou dat een 'duidelijke schending' van de servicevoorwaarden zijn."
OpenAI behoort deze keer niet tot de beschuldigden en we weten niet of YouTube zal proberen actie te ondernemen als de nieuwe beschuldigingen op waarheid blijken te berusten.
Dit is lang niet de eerste keer dat techbedrijven in het vizier komen vanwege hun gegevensgebruik.
In 2018 kreeg Facebook te maken met hevige kritiek vanwege het Cambridge Analytica-schandaal, waarbij de gegevens van miljoenen gebruikers zonder toestemming werden verzameld voor politieke advertenties.
Nog relevanter voor AI: in 2023 werd ontdekt dat een dataset met de naam Books3die meer dan 180.000 auteursrechtelijk beschermde boeken bevatte, was gebruikt om AI-modellen te trainen zonder toestemming van de auteurs. Dit leidde tot een golf van rechtszaken tegen AI-bedrijven, waarbij auteurs claimden het auteursrecht te hebben geschonden.
Dat is slechts één voorbeeld van een steeds groeiende stapel rechtszaken die uit alle hoeken van de creatieve industrieën komen. Universal Music Group, Sony Music en Warner Records behoren tot de meest productieve entiteiten die hun namen op de lijst nadat ze zich samen richten op tekst-naar-audio AI-bedrijven Udio en Suno.
In hun haast om geavanceerdere AI-modellen te bouwen, lijkt het alsof techbedrijven een "vraag om vergiffenis, geen toestemming"-aanpak hebben aangenomen voor het verzamelen van gegevens.
De fusie tussen Microsoft en Inflection
Terwijl het YouTube-schandaal zich ontvouwt, heeft Microsofts recente werving van AI-startup Inflection de aandacht getrokken van Britse toezichthouders.
De Competition and Markets Authority (CMA) is een fase één fusieonderzoek gestart om te onderzoeken of deze massale indienstneming een de facto fusie is die de concurrentie in de AI-sector zou kunnen verstikken.
Deze doortastende zet van Microsoft omvatte het overnemen van Mustafa Suleyman, medeoprichter van Inflection (een voormalig leidinggevende van Google DeepMind) en een aanzienlijk deel van het personeel van de startup.
Inflection zette zichzelf ooit op de markt als een trots onafhankelijk AI-lab. Vervolgens bewezen ze dat dit een uitstervend ras is.
Het krijgt nog meer gewicht als je kijkt naar Microsofts bestaande samenwerkingsverbanden op het gebied van AI. Het bedrijf heeft in totaal al zo'n $13 miljard geïnvesteerd in OpenAI, wat vragen oproept over marktconcentratie.
Microsoft heeft zich onlangs teruggetrokken van zijn zetel zonder stemrecht bij OpenAI. Experts zeggen dat dit waarschijnlijk het gevolg is van een beslissing om het toezicht van het bedrijf te beperken om de antitrustautoriteiten tevreden te stellen.
Alex Haffner, een mededingingspartner bij advocatenkantoor Fladgate, zei over de verrassende beslissing van Microsoft, "Het is moeilijk om niet te concluderen dat Microsofts beslissing sterk beïnvloed is door de voortdurende concurrentie/antitrust-onderzoeken naar de invloed van Microsoft (en andere grote technische spelers) op opkomende AI-spelers zoals OpenAI."
Een tekort aan vertrouwen?
Zowel het YouTube datamining schandaal als de wervingspraktijken van Microsoft dragen bij aan een groeiend tekort aan vertrouwen tussen Big Tech en het publiek.
Een onmiddellijk effect is dat makers van inhoud voorzichtiger zijn geworden met hun werk uit angst voor uitbuiting.
Dit zou een domino-effect kunnen hebben op het maken en delen van content, waardoor uiteindelijk juist de platformen waar techbedrijven op vertrouwen voor gegevens worden verarmd.
Ook de concentratie van AI-talent in een paar grote bedrijven homogeniseert de AI-ontwikkeling en beperkt de diversiteit.
Voor techbedrijven zal het herstellen van vertrouwen waarschijnlijk meer vergen dan alleen naleving van toekomstige regelgeving en antitrustonderzoeken.
De vraag blijft: kunnen we het ware potentieel van AI benutten zonder de ethiek, eerlijke concurrentie en het vertrouwen van het publiek aan te tasten?