I den galna jakten på att dominera AI-industrin tänjer teknikjättarna på etiska gränser och testar gränserna för allmänhetens förtroende.
Ett mönster av avslöjanden på senare tid väcker varningsklockor om datasekretess, rättvis konkurrens och koncentration av makt och talang.
Först och främst, en undersökning av Proof News och WIRED avslöjade att Apple, NVIDIA, Anthropic och Salesforce har använt ett dataset som innehåller undertexter från över 170.000 YouTube-videor för att träna sina AI-modeller.
Detta dataset, som kallas "YouTube Subtitles", sammanställdes utan samtycke från innehållsskaparna, vilket potentiellt bryter mot YouTubes användarvillkor.
Omfattningen av denna datautvinningsoperation är häpnadsväckande. Det inkluderar innehåll från utbildningsinstitutioner som Harvard, populära YouTubers som MrBeast och PewDiePie och till och med stora nyhetsbyråer som Wall Street Journal och BBC.
Undersökningen visar att ett dataset som används för gen AI-träning av Apple & andra innehåller upphovsrättsskyddade YouTube-transkriptioner som har hämtats utan tillstånd. Mer information:
- Pile-datasetet innehåller transkriptioner av 170 000 YouTube-videor
- Används av Apple, Anthropic, Nvidia, Salesforce och mer... pic.twitter.com/RE0UjhumA3- Ed Newton-Rex (@ednewtonrex) 16 juli 2024
YouTube har ännu inte reagerat, men redan i april sa VD Neal Mohan att OpenAI:s potentiella användning av videor för att träna text-till-video-modellen Sora skulle bryta mot dess användarvillkorOm Sora använde innehåll från YouTube skulle det vara en "tydlig överträdelse" av användarvillkoren, säger han till Bloomberg.
OpenAI finns inte med bland de anklagade den här gången, och vi vet inte om YouTube kommer att försöka vidta åtgärder om de nya anklagelserna visar sig vara sanningsenliga.
Det här är långt ifrån första gången som teknikföretag hamnar i skottgluggen för dataanvändning.
Under 2018 utsattes Facebook för intensiv granskning på grund av Cambridge Analytica-skandalen, där miljontals användares data samlades in utan samtycke för politisk reklam.
Mer relevant för AI upptäcktes det 2023 att en dataset som heter Books3som innehöll över 180.000 upphovsrättsskyddade böcker, hade använts för att träna AI-modeller utan författarnas tillstånd. Detta ledde till en våg av stämningar mot AI-företag, där författare hävdade upphovsrättsintrång.
Det är bara ett exempel från en ständigt växande hög av stämningar som kommer från alla hörn av de kreativa branscherna. Universal Music Group, Sony Music och Warner Records är bland de mest produktiva enheterna som har lagt till deras namn till listan efter att ha gått samman för att rikta in sig på text-till-audio AI-företagen Udio och Suno.
I sin brådska att bygga mer avancerade AI-modeller verkar det som om teknikföretagen har antagit en "be om förlåtelse, inte om tillstånd"-strategi för datainsamling.
Sammanslagningen av Microsoft och Reflection
Samtidigt som YouTube-skandalen rullas upp har Microsofts nyanställningar från AI-startupen Inflection uppmärksammats av brittiska tillsynsmyndigheter.
Konkurrens- och marknadsmyndigheten (CMA) har inlett en koncentrationsutredning i fas ett för att undersöka om denna massrekrytering utgör en de facto-koncentration som kan hämma konkurrensen inom AI-sektorn.
Detta skarpa drag av Microsoft inkluderade köper upp Inflections medgrundare Mustafa Suleyman (en tidigare chef för Google DeepMind) och en betydande del av startupbolagets personal.
Inflection marknadsförde sig en gång i tiden som ett stolt oberoende AI-labb. De bevisade sedan att det är en utdöende ras.
Det blir extra viktigt med tanke på Microsofts befintliga samarbeten inom AI-området. Bolaget har redan investerat totalt cirka $13 miljarder kronor i OpenAI, vilket väcker frågor om marknadskoncentration.
För att förtjocka handlingen drog sig Microsoft nyligen tillbaka från sin plats utan rösträtt i OpenAI. Enligt experter är detta sannolikt ett resultat av ett beslut att begränsa bolagets tillsyn för att blidka konkurrensmyndigheterna.
Alex Haffner, partner i konkurrensfrågor på advokatbyrån Fladgate, sa om Microsofts överraskande beslut"Det är svårt att inte dra slutsatsen att Microsofts beslut har påverkats starkt av den pågående konkurrens- och antitrustgranskningen av Microsofts (och andra stora teknikaktörers) inflytande över framväxande AI-aktörer som OpenAI."
Ett förtroendeunderskott?
Både datautvinningsskandalen på YouTube och Microsofts anställningsrutiner bidrar till en växande förtroendeunderskott mellan Big Tech och allmänheten.
En omedelbar effekt är att innehållsskaparna har blivit mer försiktiga med sitt arbete av rädsla för att bli utnyttjade.
Detta kan få en dominoeffekt på skapandet och delningen av innehåll och i slutändan utarma just de plattformar som teknikföretagen förlitar sig på för att få data.
På samma sätt leder koncentrationen av AI-talanger till ett fåtal stora företag till att AI-utvecklingen homogeniseras och mångfalden begränsas.
För teknikföretag kommer det sannolikt att krävas mer än bara efterlevnad av framtida regleringar och antitrustutredningar för att återupprätta förtroendet.
Frågorna kvarstår: kan vi utnyttja AI:s verkliga potential och samtidigt bevara etik, rättvis konkurrens och allmänhetens förtroende?