Indblik i Big Techs kamp om AI-træningsdata

8. april 2024

  • Tech-giganter som Google, Meta og OpenAI ønsker at sikre mere data
  • Det har fået dem til at anvende stadig mere etisk og juridisk tvivlsomme taktikker
  • OpenAI kan f.eks. have brugt YouTube-udskrifter til at træne GPT-4.
Data

I den hektiske jagt på AI-træningsdata har tech-giganterne OpenAI, Google og Meta angiveligt omgået virksomhedspolitikker, ændret deres regler og diskuteret omgåelse af copyright-loven. 

A New York Times' undersøgelse afslører, hvor langt disse virksomheder er gået for at høste onlineoplysninger til at fodre deres datahungrende AI-systemer.

I slutningen af 2021 udviklede OpenAI-forskere et talegenkendelsesværktøj kaldet Whisper til at transskribere YouTube-videoer, når der var mangel på anerkendte engelsksprogede tekstdata. 

På trods af interne diskussioner om potentielt at overtræde YouTubes regler, som forbyder brug af videoer til "uafhængige" applikationer, 

NYT fandt ud af, at OpenAI i sidste ende transskriberede over en million timers YouTube-indhold. Greg Brockman, OpenAI's præsident, hjalp personligt med at indsamle videoerne. Den transskriberede tekst blev derefter ført ind i GPT-4.

Google har angiveligt også transskriberet YouTube-videoer for at indsamle tekst til sine AI-modeller, hvilket potentielt krænker videoskabernes ophavsret.

Det sker få dage efter, at YouTubes CEO sagde, at en sådan aktivitet ville være i strid med virksomhedens servicevilkår og underminere skaberne. 

I juni 2023 anmodede Googles juridiske afdeling om ændringer af virksomhedens privatlivspolitik, så offentligt tilgængeligt indhold fra Google Docs og andre Google-apps kunne bruges til en bredere vifte af AI-produkter. 

Meta, som selv mangler data, har overvejet forskellige muligheder for at skaffe flere træningsdata. 

Cheferne diskuterede at betale for boglicenser, købe forlaget Simon & Schuster og endda høste ophavsretligt beskyttet materiale fra internettet uden tilladelse og dermed risikere potentielle retssager. 

Metas advokater argumenterede for, at brug af data til at træne AI-systemer burde falde ind under "fair use", med henvisning til en domstolsafgørelse fra 2015, der involverede Googles bogscanningsprojekt.

Etiske bekymringer og fremtiden for AI-træningsdata

Disse teknologivirksomheders kollektive handlinger understreger den kritiske betydning af onlinedata i den blomstrende AI-industri.

Denne praksis har givet anledning til bekymring om krænkelse af ophavsretten og rimelig kompensation til skaberne. 

En filmskaber og forfatter, Justine Bateman, fortalte Copyright Office, at AI-modeller tog indhold - herunder hendes tekster og film - uden tilladelse eller betaling.

"Dette er det største tyveri i USA, punktum," sagde hun i et interview.

I billedkunsten har MidJourney og andre billedmodeller været bevist at generere copyright indhold, f.eks. scener fra Marvel-film. 

Nogle eksperter forudsiger, at onlinedata af høj kvalitet kan være opbrugt i 2026, og derfor undersøger virksomheder alternative metoder, som f.eks. at generere syntetiske data ved hjælp af egne AI-modeller. Men syntetiske træningsdata har sine egne risici og udfordringer og kan have en negativ indvirkning på påvirke kvaliteten af modeller

OpenAI's CEO Sam Altman erkendte selv, at onlinedata er begrænsede i en tale på en teknologikonference i maj 2023: "Det løber ud," sagde han.

Sy Damle, en advokat, der repræsenterer Andreessen Horowitz, et venturekapitalfirma i Silicon Valley, diskuterede også udfordringen: "Den eneste praktiske måde, hvorpå disse værktøjer kan eksistere, er, hvis de kan trænes på store mængder data uden at skulle have licens til disse data. De data, der er brug for, er så massive, at selv kollektiv licensering ikke rigtig kan fungere."

NYT og OpenAI er låst fast i en Bitter retssag om ophavsretog Times kræver, hvad der sandsynligvis vil være millioner i erstatning.

OpenAI slog tilbage og beskyldte Times for at 'hacking' af deres modeller for at finde eksempler på krænkelser af ophavsretten.

Med 'hacking' mener de jailbreaking eller red-teaming, som indebærer at målrette modellen med specielt formulerede beskeder, der har til formål at bryde for at manipulere resultater.

NYT sagde, at de ikke ville være nødt til at ty til jailbreaking-modeller, hvis AI-virksomheder var gennemsigtige med hensyn til de data, de havde brugt.

Der er ingen tvivl om, at denne interne undersøgelse tegner et yderligere billede af Big Techs datakup som etisk og juridisk uacceptabelt.

Retssagerne hober sig op, Det juridiske landskab omkring brugen af onlinedata til AI-træning er ekstremt usikkert. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser